pandas - 使用新 pyspark.pandas 的正确方法?
问题描述
Databricks 最近发布的这篇博文https://databricks.com/blog/2021/10/04/pandas-api-on-upcoming-apache-spark-3-2.html说 Pandas 程序需要的唯一更改是在 pyspark.pandas 下运行它是更改from pandas import read_csv
为from pyspark.pandas import read_csv
.
但这似乎不对。对熊猫的所有其他(非read_csv
)引用呢?import pandas as pd
改变的正确方法不是import pyspark.pandas as pd
吗?然后,现有程序中的所有其他 pandas 引用都将指向 pandas 的 pyspark 版本。
解决方案
你说对了。然而,他们建议的规范方式是,from pyspark import pandas as ps
推荐阅读
- android - 添加 cordova.js 可防止地理位置(或任何其他)回调
- asp.net-mvc - 用于定义加载了错误路线的动作的 Stimulsoft 选项
- matlab - 将文本文件中的值列表读入 MATLAB
- python - 如何使用 Python 2 和 3 处理类似字节的值
- arrays - 来自 Instagram 的 Google 表格正则表达式
- c++ - 运行在主线程旁边侦听 tcp 连接的线程时出错
- laravel - Axios 没有发送 cookie
- python - Django:如何区分来自同一页面的不同页面的发布请求?
- react-native - 在 React Native 中显示和存储大量文本的建议
- lamar - 使用 Lamar 引导 C# 服务时如何调试和查找错误“NullReferenceException”的来源?