python - 使用 PySpark 创建 SparkSession 时系统找不到指定的路由
问题描述
我正在尝试在 Win10 虚拟机上与 Python 一起学习 Spark。为此,我正在尝试使用 PySpark 从 CSV 文件中读取数据,但会停止以下操作:
C:\Users\israel\AppData\Local\Programs\Python\Python37\python.exe C:/Users/israel/Desktop/airbnb_python/src/main/python/spark_python/airbnb.py
你好世界1
系统找不到指定路线
我已阅读如何将 PyCharm 与 PySpark 链接?, PySpark, Win10 - 系统找不到指定的路径, 系统找不到指定的路径 运行 pyspark 时出现错误, PySpark - 系统找不到指定的路径 但还没有找到实施解决方案的运气。
我正在使用 IntelliJ,python 3.7。这是运行配置。
我正在使用 IntelliJ,python 3.7。代码如下
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import *
if __name__ == "__main__":
print("hello world1")
spark = SparkSession \
.builder \
.appName("spark_python") \
.master("local") \
.getOrCreate()
print("hello world2")
path = "C:\\Users\\israel\\Desktop\\data\\listings.csv"
df = spark.read\
.format("csv")\
.option("header", "true")\
.option("inferSchema", "true")\
.load(path)
df.show()
spark.stop()
似乎错误在 SparkSession 中,但我看不出宣布的错误与该行有何关系。值得一提的是,执行永远不会结束,我必须手动停止执行才能重新运行。谁能告诉我我做错了什么?请
解决方案
我确信这不是最好的解决方案,但一种方法是直接从 pyspark 二进制文件启动你的 python 解释器。
这可以位于:$SPARK_HOME\bin\pyspark
此外,如果您在任何终端处于活动状态时修改环境变量,则在下次启动之前不会刷新变量。这也适用于 Pycharm。如果您还没有尝试过,重新启动 pycharm 也可能会有所帮助。
推荐阅读
- vba - 如何真正保护 dotm 文件中的 VBA 代码?
- mongodb - 如何更改 .dbshell 历史文件位置
- c# - 如何使用 JSON.Net C# 在 JSON 中反序列化具有引用 ID 的数组
- .htaccess - 尝试从另一个位置获取图像,但 htaccess 中的 RedirectMatch 被忽略
- amazon-web-services - 如何在 AWS eventbridge eventpattern 的任何其他子句中使用多个前缀?
- javascript - How do i get the new html content and its ID to work?
- sql - SSMS SQL - 创建具有相关列的表
- thymeleaf - Thymeleaf lists.sort 导致 LazyInitializationException 尽管在视图中打开会话
- c# - 为什么我会收到“未分配的局部变量”错误?
- r - R中系统发育重建中的混合数据分区