首页 > 解决方案 > 使用新 pyspark.pandas 的正确方法?

问题描述

Databricks 最近发布的这篇博文https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html说 Pandas 程序需要的唯一更改是在 pyspark.pandas 下运行它是更改from pandas import read_csvfrom pyspark.pandas import read_csv.

但这似乎不对。对熊猫的所有其他(非read_csv)引用呢?import pandas as pd改变的正确方法不是import pyspark.pandas as pd吗?然后,现有程序中的所有其他 pandas 引用都将指向 pandas 的 pyspark 版本。

标签: pandaspysparkdatabricks

解决方案


你说对了。然而,他们建议的规范方式是,from pyspark import pandas as ps


推荐阅读