首页 > 解决方案 > 执行 spark-submit 时的 numpy 问题

问题描述

当我在独立的 ec2 spark 集群上使用 spark-submit 提交 python 脚本时。我使用 python 2.7.9 ,验证集群中没有其他 python 正在运行。- 我收到以下错误:

ImportError: No module named numpy

我验证了 numpy 正在与每个工人一起工作

root@10:/usr/local/lib/python2.7/site-packages# python
Python 2.7.9 (default, Jun 29 2016, 13:08:31)
[GCC 4.9.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy
>>>

还手动将 numpy 包复制到 /usr/local/lib/python2.7/site-packages 但问题仍然存在。

更新 问题未根据此处的答案解决。问题是 jupyter 和 numpy 安装在 master 上的 1 个 docker 映像上,程序在另一个映像上运行,而没有安装 numpy,其中包含 python。所以解决方案是将其安装为程序的 docker 映像的一部分,并在其中设置 PYSPARK_PYTHON 和 PYTHONPATH 的环境变量。

标签: pythonapache-sparkpyspark

解决方案


推荐阅读