首页 > 解决方案 > 使用 PySpark 创建 SparkSession 时系统找不到指定的路由

问题描述

我正在尝试在 Win10 虚拟机上与 Python 一起学习 Spark。为此,我正在尝试使用 PySpark 从 CSV 文件中读取数据,但会停止以下操作:

在此处输入图像描述

C:\Users\israel\AppData\Local\Programs\Python\Python37\python.exe C:/Users/israel/Desktop/airbnb_python/src/main/python/spark_python/airbnb.py

你好世界1

系统找不到指定路线

我已阅读如何将 PyCharm 与 PySpark 链接?, PySpark, Win10 - 系统找不到指定的路径, 系统找不到指定的路径 运行 pyspark 时出现错误, PySpark - 系统找不到指定的路径 但还没有找到实施解决方案的运气。

我正在使用 IntelliJ,python 3.7。这是运行配置。

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

我正在使用 IntelliJ,python 3.7。代码如下

from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import *


if __name__ == "__main__":

    print("hello world1")

    spark = SparkSession \
        .builder \
        .appName("spark_python") \
        .master("local") \
        .getOrCreate()

    print("hello world2")

    path = "C:\\Users\\israel\\Desktop\\data\\listings.csv"

    df = spark.read\
        .format("csv")\
        .option("header", "true")\
        .option("inferSchema", "true")\
        .load(path)

    df.show()

    spark.stop()

似乎错误在 SparkSession 中,但我看不出宣布的错误与该行有何关系。值得一提的是,执行永远不会结束,我必须手动停止执行才能重新运行。谁能告诉我我做错了什么?请

标签: pythonapache-sparkintellij-ideapyspark

解决方案


我确信这不是最好的解决方案,但一种方法是直接从 pyspark 二进制文件启动你的 python 解释器。

这可以位于:$SPARK_HOME\bin\pyspark

此外,如果您在任何终端处于活动状态时修改环境变量,则在下次启动之前不会刷新变量。这也适用于 Pycharm。如果您还没有尝试过,重新启动 pycharm 也可能会有所帮助。


推荐阅读