python - 如何使用 Conda Python 在本地机器上安装和使用 mmlspark?
问题描述
如何在装有 Intel Python 3.6 的本地机器上安装和使用MMLSpark ?
import numpy as np
import pandas as pd
import pyspark
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
.config("spark.jars.packages", "Azure:mmlspark:0.13") \
.getOrCreate()
import mmlspark
from mmlspark import TrainClassifier
from pyspark.ml.classification import LogisticRegression
from mmlspark import ComputeModelStatistics, TrainedClassifierModel
dataFilePath = "AdultCensusIncome.csv"
import os, urllib
if not os.path.isfile(dataFilePath):
urllib.request.urlretrieve("https://mmlspark.azureedge.net/datasets/" + dataFilePath, dataFilePath)
data = spark.createDataFrame(pd.read_csv(dataFilePath, dtype={" hours-per-week": np.float64}))
data = data.select([" education", " marital-status", " hours-per-week", " income"])
train, test = data.randomSplit([0.75, 0.25], seed=123)
train.limit(10).toPandas()
model = TrainClassifier(model=LogisticRegression(), labelCol=" income", numFeatures=256).fit(train)
prediction = model.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()
MMLSpark 不起作用。有人可以帮助解决这个问题吗?
解决方案
您的问题没有正确描述问题,但是如果您正在寻找安装命令。那么请看下面,
首先安装pyspark。
pip install pyspark
若要在现有 HDInsight Spark 群集上安装 MMLSpark,可以在群集头和工作节点上执行脚本操作。有关运行脚本操作的说明,请参阅本指南。
脚本操作 url 是:https://mmlspark.azureedge.net/buildartifacts/0.13/install-mmlspark.sh。
如果您使用 Azure 门户运行脚本操作,请转到集群刀片的概述部分中的脚本操作 → 提交新的。在 Bash 脚本 URI 字段中,输入上面提供的脚本操作 URL。标记其余选项,如右侧屏幕截图所示。
提交,集群应该在 10 分钟左右完成配置。
来自原始文档:- https://github.com/Azure/mmlspark
推荐阅读
- python - 在 Display 和 Textfile 中输出序列 (Collatz)
- google-sheets - 需要根据excel中的每周生产数量返回订单的生产完成日期
- r - 通过粘贴字符作为输入来创建函数
- c - C 的激活记录中的全局变量在哪里?
- python - 插入误差线时出现 AssertionError
- firebase - HostObject::get(propName:RNfirebase) 中的异常
- mysql - 带有用户输入的 MySQL 和 node.js JOIN 语句
- php - PHP chilkat 的某些功能需要很长时间
- c# - 您如何为视频而不是图像实现拖放?
- azure - Azure Kuberenets 集群:找不到准备好的分蘖 pod