apache-spark - 撤消规模数据pyspark
问题描述
from pyspark.ml.feature import MinMaxScaler
from pyspark.ml.linalg import Vectors
df = spark.createDataFrame([
(0, Vectors.dense([5.0, 0.1, -1.0]),),
(1, Vectors.dense([2.0, 2.1, 1.0]),),
(2, Vectors.dense([3.0, 10.1, 7.0]),)
], ["id", "features"])
scaler = MinMaxScaler(inputCol="features", outputCol="scaledFeatures")
scaler_model = scaler.fit(df)
scaled_data = scalerModel.transform(df)
scaled_data
是转换后的数据。
拟合机器学习模型后如何进行逆尺度分析结果?
解决方案
MinMaxScaler
将缩放特征添加为新scaledFeatures
列,因此您的实际数据不会丢失。
在将其用于机器学习模型之前,您可以使用该features
列来分析您的输出列。scaledFeatures
推荐阅读
- c# - 获取重复对象的列表,包括所有出现的 C#
- javascript - 使用 webpack 在 Laravel 5 中将插件安装到 CKEditor 5
- ansible - 通过 Jenkins ansible playbook 将地图传递给 ansible
- batch-file - 为什么批处理文件意味着将文件备份到启动文件夹复制所有 System32 文件
- ios - ios如何快速更改不同视图控制器中另一个视图控制器的内容
- raku - 导出动态范围的变量?
- matlab - 对 GPX 文件进行编码,使其被 Here API 的 /matchroute 端点接受
- c# - ASP.NET Core 2.1 不显眼的 Ajax 验证不适用于部分视图表单交换
- javascript - 错误 RangeError:最大调用堆栈大小超过 Angular 6 - JavaScript
- javascript - Nodejs 进行自动 csrf 保护