apache-spark - PySpark ImportError:尽管包含在 --pyfiles 中,但没有命名模块
问题描述
我正在尝试运行 PySpark 应用程序。火花提交命令看起来像这样。
spark-submit --py-files /some/location/data.py /path/to/the/main/file/etl.py
我的主文件(etl.py)导入 data.py 并使用 data.py 文件中的函数,代码如下所示。
import data
def main(args_dict):
print(args_dict)
df1 = data.get_df1(args_dict['df1name'])
df1 = data.get_df2(args_dict['df1name'])
...
...
...
我在 --py-files 中传递 data.py 文件,但是当我运行 spark-submit 时,ImportError: No module named 'data'
我正在试图找出我在这里做错了什么。谢谢你。
解决方案
推荐阅读
- keyboard-shortcuts - Shift+Enter 在 JupyterLab 的编辑模式下不起作用
- python - 如何让 Jupyter Notebook 在顶部显示内核、小部件、Python 3?
- reactjs - 更新和删除功能后嵌套路由不重新渲染父组件?
- regex - 用列表文件中的每一行替换每个出现的单词
- reactjs - 在 React 的路由中使用重定向时出现循环问题
- reactjs - npm install npm run build --prod / build 失败 jenkins
- python - 如何在for循环中将整数附加到列表中?理解列表理解
- eloquent - Laravel 6 中 isEmpty() 和 isEmpty 的区别
- azure - 使用 ARM 创建事件网格订阅以收集订阅的事件
- directx - 如何在 DirectX 中绘制不同的几何图形?