python - 执行 spark-submit 时的 numpy 问题
问题描述
当我在独立的 ec2 spark 集群上使用 spark-submit 提交 python 脚本时。我使用 python 2.7.9 ,验证集群中没有其他 python 正在运行。- 我收到以下错误:
ImportError: No module named numpy
我验证了 numpy 正在与每个工人一起工作
root@10:/usr/local/lib/python2.7/site-packages# python
Python 2.7.9 (default, Jun 29 2016, 13:08:31)
[GCC 4.9.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy
>>>
还手动将 numpy 包复制到 /usr/local/lib/python2.7/site-packages 但问题仍然存在。
更新 问题未根据此处的答案解决。问题是 jupyter 和 numpy 安装在 master 上的 1 个 docker 映像上,程序在另一个映像上运行,而没有安装 numpy,其中包含 python。所以解决方案是将其安装为程序的 docker 映像的一部分,并在其中设置 PYSPARK_PYTHON 和 PYTHONPATH 的环境变量。
解决方案
推荐阅读
- pyspark - 除非在 mmlspark 中使用 lgbm 模型的数据块中使用 repartition(1),否则大预测结果
- python - 如何使用迁移的 Django 模型将“没有时区的时间戳”更改为“有时区的时间戳”?
- python - 缺少 Python 构造函数属性
- javascript - 使用 fetch 方法从 AWS S3 下载文件会引发 CORS 错误
- php - 告诉 Laravel 在 X 秒后停止尝试连接
- java - 无法在 Mac OS Big Sur 上打开 Eclipse
- arrays - 使用索引匹配,其中匹配查找可以是多个值之一
- python - 使用 XPather 进行测试时 HTML 无效
- reactjs - 有些东西直接调用了 React 组件。改用工厂或 JSX
- amazon-s3 - 通过多个线程读取 S3 对象时,连接池已满警告