首页 > 解决方案 > 在 pandas 数据帧上应用 Pyspark 管道

问题描述

我有一个 pyspark 管道(包含插补和机器学习模型)和一个 pandas 数据框。我可以在此熊猫数据帧上应用管道而不将其转换为 Pyspark 数据帧吗?如果不可能,我如何有效地使用 pyspark 管道在 pandas 数据帧上生成预测?

标签: pythonpandasdataframepyspark

解决方案


恐怕不可能这样做。Pyspark 模型与其他 python 库(如 Sk-Learn 等)的工作方式不同。您将需要 Spark 数据框用于 Spark Pipeline 或/和 ML 模型。同时,你通常会使用 Spark [PySpark],因为你想分发你的竞争对手。[Pandas 在单台机器上运行,而 PySpark 在多台机器上运行。如果您在处理更大数据集的机器学习应用程序,PySpark 是最合适的,它可以比 Pandas 快很多倍(100 倍)处理操作。]

您可以在需要 spark [SQL] 数据框的文档中阅读此处:

希望这可以帮助!


推荐阅读