pyspark - 如何在pyspark中获得模型的预测
问题描述
我已经使用 pyspark 开发了一个聚类模型,我只想预测一个向量的类别,这是代码
spark = SparkSession.builder.config("spark.sql.warehouse.dir",
"file:///C:/temp").appName("Kmeans").getOrCreate()
vecAssembler = VectorAssembler(inputCols=FEATURES_COL, outputCol="features")
df_kmeans = vecAssembler.transform(df).select('LCLid', 'features')
k = 6
kmeans = KMeans().setK(k).setSeed(1).setFeaturesCol("features")
model = kmeans.fit(df_kmeans)
centers = model.clusterCenters()
predictions = model.transform(df_kmeans)
transformed = model.transform(df_kmeans).select('LCLid', 'prediction')
rows = transformed.collect()
说我有一个特征向量 V 并且我想预测它属于哪个类我尝试了我在此链接http://web.cs.ucla.edu/~zhoudiyu/tutorial/中找到的一种方法, 但它没有t 工作,因为我正在使用 SparkSession 而不是在 sparkContext 中
解决方案
predict
您可以使用 Spark ML Vector调用 kmeans 模型的方法:
from pyspark.ml.linalg import Vectors
model.predict(Vectors.dense([1,0]))
这里[1,0]
只是一个例子。它应该与您的特征向量具有相同的长度。
推荐阅读
- javascript - Promise 链:父 Promise 不会等到子 Promise 被执行
- c# - C# - 项目集合的延迟执行
- outlook - 使用 Fabric UI 的 Outlook Web 插件中的文件类型(mime 类型)问题
- android - 如何在 viewmodel LiveData + Courotine + MVVM + Retrofit 中观察数据
- perl - perl strftime localtime 减去 12 小时
- django - 如何为 SMTP 中继服务配置 django 设置
- python - Pytorch runtimeError“预期矩阵,得到一维,二维张量”
- codenameone - 代号一中的动画标签颜色变化
- git - Git 命令中的“开关”是什么?
- haskell - 无法将预期类型 '(a0, b0, c0, Geometry -> b)' 与实际类型 'Geometry -> (Int, Int, Int, Int) 匹配