apache-spark - 如何从命令行访问 Apache PySpark?
问题描述
我正在使用 Jupyter 笔记本参加有关 Apache PySpark 的在线课程。为了轻松打开 Jupyter 笔记本,他们让我将这些代码行输入到我的 bash 配置文件中(我使用的是 MAC OS):
export SPARK_HOME="(INSERTED MY SPARK DIRECTORY)"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
我对 Linux 不太熟悉,课程也没有解释这些代码行的作用。在我这样做之前,我可以通过命令行输入“pyspark”来访问 PySpark。但是现在当我输入“pyspark”时,它会打开一个 jupyter 笔记本。现在我不知道如何从命令行访问它。这段代码有什么作用以及如何访问命令行 pyspark?
解决方案
您是否使用 Pyspark 的本地安装?
您可以使用https://github.com/minrk/findspark
findspark
使用 Anaconda安装。
首先,添加这两行,它将能够找到 pyspark。
import findspark
findspark.init()
import pyspark
sc = pyspark.SparkContext(appName="myAppName")
推荐阅读
- c# - System.dll 中发生“System.Net.Mail.SmtpException”类型的未处理异常
- java - 如何避免 DuplicateProjectException 异常
- mongodb - 使用 $lookup 和“sub”聚合管道的查询性能非常慢
- laravel - 获取两个集合中存在的所有对象
- wordpress - Woocommerce 按 ID 列出的产品列表仅返回一个产品,而不是多个选择
- github - 链接到您的 GitHub 新闻提要?
- javascript - 失去焦点后保持插入符号显示在div中
- java - 在休眠中使用 bean 验证
- erlang - 如何将输入作为元组并将其存储在 Erlang 的变量中?
- firebase - Kotlin Firebase:无法将 java.lang.String 类型的对象转换为 com.example.Model.perizinan 类型