首页 > 解决方案 > 如何运行 pandas-Koalas 程序起诉 spark-submit(windows)?

问题描述

我有熊猫数据框(示例程序),转换后的考拉数据框,现在我要在火花集群(Windows 独立)上执行,当我尝试从命令提示符为

spark-submit --master local hello.py,出现错误 ModuleNotFoundError: No module named 'databricks'

import pandas as pd
from databricks import koalas as ks

workbook_loc = "c:\\2020\Book1.xlsx"
df = pd.read_excel(workbook_loc, sheet_name='Sheet1')
kdf = ks.from_pandas(df)
print(kdf)

我应该改变什么才能使用火花集群功能。我用 pandas 编写的实际程序做了很多事情,我想利用 spark 集群来查看性能改进。

标签: pandasspark-koalas

解决方案


您应该通过集群的管理 UI(Libraries/PyPI)安装 koalas,如果您在集群上运行 pip install koalas,它将无法正常工作。


推荐阅读