pyspark - 使用 pycharm 在本地运行 pyspark
问题描述
我用我的 Pycharm IDE 编写了以下非常简单的 python 脚本
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql import SQLContext
from pyspark.sql.types import LongType, FloatType,IntegerType,StringType,DoubleType
from pyspark.sql.functions import udf
from pyspark.sql import functions as F
from pyspark.sql.window import Window
from pyspark.sql.functions import abs
from pyspark.sql import HiveContext
spark = SparkSession.builder.config("requiredconfig").appName("SparkSran").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
当我在我的 IDE 上单击运行或运行以下命令时
spark-submit --py-files /home/user/PycharmProjects/helloSparkWorld/test.py
I get
/usr/lib/spark/bin/spark-class: line 71: /usr/local/java/jdk10.0.1/bin/java: No such file or directory
我的 JAVA_HOME 和 SPARK_HOME 设置如下回显$SPARK_HOME
给出/usr/lib/spark
和回显$JAVA_HOME
给出
/usr/local/java/jdk10.0.1
解决方案
你可以pip install pyspark
在你的环境中使用你的 pycharm 安装来运行 python 程序。如果您在本地运行,您可以自行运行 pyspark.py
文件。python filename.py
基本上只需为您的pip
或 python 解释器提供 pyspark pip 包,您就可以使用相同的解释器通过 pycharm 运行它。
推荐阅读
- php - 如何使用这种格式的 PHP 在 JSON 中添加新数组?
- python - 创建此 python 脚本以添加 100 个成员,但仅添加 3 到 5 并自动停止
- javascript - Javascript:未捕获的 ReferenceError:未定义 tb
- azure - 从 Azure 运行时模块到外部网关的 HTTP POST 请求
- java - 使用 ByteBuddy 重新定义特定实例
- jenkins - 如何在声明性管道中的 Jenkinsfile 中跨阶段存储和取消存储人工制品
- git - 在 github 上授予协作者管理员权限
- bash - 杀死mac终端后运行appium-doctor不会显示之前设置的env变量
- python - 使用 xml.etree 解析 Python xml
- gstreamer - 通过 udp 流式传输网络摄像头卡住