python - 在 pandas 数据帧上应用 Pyspark 管道
问题描述
我有一个 pyspark 管道(包含插补和机器学习模型)和一个 pandas 数据框。我可以在此熊猫数据帧上应用管道而不将其转换为 Pyspark 数据帧吗?如果不可能,我如何有效地使用 pyspark 管道在 pandas 数据帧上生成预测?
解决方案
恐怕不可能这样做。Pyspark 模型与其他 python 库(如 Sk-Learn 等)的工作方式不同。您将需要 Spark 数据框用于 Spark Pipeline 或/和 ML 模型。同时,你通常会使用 Spark [PySpark],因为你想分发你的竞争对手。[Pandas 在单台机器上运行,而 PySpark 在多台机器上运行。如果您在处理更大数据集的机器学习应用程序,PySpark 是最合适的,它可以比 Pandas 快很多倍(100 倍)处理操作。]
您可以在需要 spark [SQL] 数据框的文档中阅读此处:
https://spark.apache.org/docs/latest/ml-pipeline.html#main-concepts-in-pipelines
https://spark.apache.org/docs/latest/ml-pipeline.html#dataframe
希望这可以帮助!
推荐阅读
- perl - 使用 Win32::Env perl 模块,环境变量未在 Windows 中永久设置
- react-native - 在类 com.google.firebase.firestore.FieldValue$ServerTimestampFieldValue 上找不到要序列化的属性
- php - PHP urldecode() 函数不适用于电子邮件验证
- reactjs - 我们如何在使用反应最终形式时在组件中设置状态
- python - 给定一个 Gtk Notebook,如何将页面拖放到新窗口?
- typescript - 了解 Typescript 定义
- node.js - 如果他的经纬度在 5 米以内,如何计算标记是否处于活动状态 5 分钟
- swift - 从整数值形成一个整数数组
- c# - 使用动态属性名称反序列化 Newtonsoft Json 数据 - C#
- javascript - 选择整个页面中的任何文本时如何显示下拉菜单?