pyspark - PySpark 特征变换:输出均匀分布的 QuantileTransformer
问题描述
链接到 scikit-learn 上的文档: link
它本质上所做的是,它对数据进行规范化,使得每个数据点都落在 0 到 1 之间的存储桶(百分位等级?)下,我假设每个存储桶都具有相同数量的数据点。这张图片描述了我正在尝试做的事情。
我想将此分位数转换与 PySpark 一起使用。PySpark 中有一个 QuantileDiscretizer链接,但它并不完全符合我的要求。它还返回比输入参数中给出的更少数量的桶。下面的代码行在具有数百万行的数据集上仅返回 81 个不同的桶,min(col_1) 为 0,max(col_1) 为 20000。
discretizer_1 = QuantileDiscretizer(numBuckets=100, inputCol="col_1", outputCol="result")
那么有没有一种方法可以统一规范化我的数据,使用 QuantileDiscretizer
或以其他方式使用 PySpark?
解决方案
推荐阅读
- python - Double DQN Agent 无法完成训练之外的环境
- orchardcore - 果园核心详细信息模板与果园摘要模板在哪里显示?
- css - 水平背景滚动图像
- r - 将 3 列长格式转换为 1000 个上(或下)三角矩阵
- python - Python 错误“列表”对象没有属性“is_Number”
- python - 有没有办法在使用 tqdm 和“wb”模式时制作合并 PDF 的进度条?
- django - 是否可以重建一棵树?
- biztalk - BizTalk - 获取每个应用程序的接收和发送消息计数
- python - Python多线程:如何在每次迭代中创建一个顺序线程来处理某些东西
- java - 布尔值是否隐含地为真?