首页 > 解决方案 > 如何使用 Conda Python 在本地机器上安装和使用 mmlspark?

问题描述

如何在装有 Intel Python 3.6 的本地机器上安装和使用MMLSpark ?

import numpy as np
import pandas as pd
import pyspark
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
            .config("spark.jars.packages", "Azure:mmlspark:0.13") \
            .getOrCreate()

import mmlspark
from mmlspark import TrainClassifier
from pyspark.ml.classification import LogisticRegression
from mmlspark import ComputeModelStatistics, TrainedClassifierModel


dataFilePath = "AdultCensusIncome.csv"
import os, urllib
if not os.path.isfile(dataFilePath):
    urllib.request.urlretrieve("https://mmlspark.azureedge.net/datasets/" + dataFilePath, dataFilePath)
data = spark.createDataFrame(pd.read_csv(dataFilePath, dtype={" hours-per-week": np.float64}))
data = data.select([" education", " marital-status", " hours-per-week", " income"])
train, test = data.randomSplit([0.75, 0.25], seed=123)
train.limit(10).toPandas()

model = TrainClassifier(model=LogisticRegression(), labelCol=" income", numFeatures=256).fit(train)
prediction = model.transform(test)
metrics = ComputeModelStatistics().transform(prediction)
metrics.limit(10).toPandas()

MMLSpark 不起作用。有人可以帮助解决这个问题吗?

标签: pythonpysparkcondaazure-machine-learning-studio

解决方案


您的问题没有正确描述问题,但是如果您正在寻找安装命令。那么请看下面,

首先安装pyspark。

pip install pyspark

若要在现有 HDInsight Spark 群集上安装 MMLSpark,可以在群集头和工作节点上执行脚本操作。有关运行脚本操作的说明,请参阅本指南。

脚本操作 url 是:https://mmlspark.azureedge.net/buildartifacts/0.13/install-mmlspark.sh。

如果您使用 Azure 门户运行脚本操作,请转到集群刀片的概述部分中的脚本操作 → 提交新的。在 Bash 脚本 URI 字段中,输入上面提供的脚本操作 URL。标记其余选项,如右侧屏幕截图所示。

提交,集群应该在 10 分钟左右完成配置。

来自原始文档:- https://github.com/Azure/mmlspark


推荐阅读