pandas - 如何运行 pandas-Koalas 程序起诉 spark-submit(windows)?
问题描述
我有熊猫数据框(示例程序),转换后的考拉数据框,现在我要在火花集群(Windows 独立)上执行,当我尝试从命令提示符为
spark-submit --master local hello.py,出现错误 ModuleNotFoundError: No module named 'databricks'
import pandas as pd
from databricks import koalas as ks
workbook_loc = "c:\\2020\Book1.xlsx"
df = pd.read_excel(workbook_loc, sheet_name='Sheet1')
kdf = ks.from_pandas(df)
print(kdf)
我应该改变什么才能使用火花集群功能。我用 pandas 编写的实际程序做了很多事情,我想利用 spark 集群来查看性能改进。
解决方案
您应该通过集群的管理 UI(Libraries/PyPI)安装 koalas,如果您在集群上运行 pip install koalas,它将无法正常工作。
推荐阅读
- python - Pandas 在 group_by 和 value_counts 之后将列添加到 df
- winforms - 如何设置GridViewBrowseColumn(winforms中的Telerik radgridview)初始目录
- swift - 一旦它在底部,UITableView 中的分页
- python - 如何使用 pipenv 从秘密文件中设置环境变量
- javascript - 带有 HTML 和 JS 的地址簿表单 - 单击时我希望我的 addBtn 显示名称、号码和社交媒体
- java - 无法从 Spring Boot 在 ReactJS 中显示 Base64 图像?
- c# - 如何从 Ubuntu VS C# 代码访问远程 Windows SQL Server Express
- java - 如何从逗号“,”和java中的任何字母之间的字符串中删除空格
- c# - 错误 CS1002: ; 预期,但我想我有分号。我不知道怎么了
- amazon-cloudformation - 注册时唯一的用户名和唯一的电子邮件放大 Cognito React