首页 > 解决方案 > pyspark 在 python 27 中不可用

问题描述

一如既往地感谢您的帮助。我的系统上有以下版本的 spark 和 python

Spark =: spark-2.1.0-bin-hadoop2.7
Python := Python27

我正在运行 jupyter notebook,当我执行下面的命令时,它显示“modulenotfounderror no module named 'pyspark'”

代码如下:

from pyspark.sql import SparkSession
from pyspark.sql.functions import expr,col,column

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

#df = spark.read.csv("C:\Spark\spark-2.4.0-bin-hadoop2.7\python\Sample_Test_Data\EMPLOYEES.csv",header=True,sep=",");

#df.filter(col("SALARY")>17000).show(3)

PATH VARIABLE WHICH I HAVE SET ON MY MACHINE IS 

PATH 

C:\Python27;C:\Spark\spark-2.1.0-bin-hadoop2.7\bin

PYSPARK_PYTHON

C:\Python27 -->Phyton is installed here 

SPARK_HOME

C:\Spark\spark-2.1.0-bin-hadoop2.7\bin

注意:我Python 37也安装在我的系统上,但我不能将它与Spark 2.1版本一起使用,这就是我使用Phyton 27版本的原因。

请如果你知道什么让我知道。

谢谢阿努拉格乔杜里

标签: pythonapache-sparkpyspark

解决方案


Spark =:spark-2.1.0-bin-hadoop2.7

看起来你有一些代码说C:\Spark\spark-2.4.0-bin-hadoop2.7??


此外,在 Spark (2.1.0) 文档中

Spark 在 Java 7+、Python 2.6+/3.4+上运行

所以我怀疑 Python3.7 工作正常......


无论如何,Python 模块与您的 PATH 变量无关。

您可以pip install pyspark或使用findspark


推荐阅读