首页 > 解决方案 > 如何从命令行访问 Apache PySpark?

问题描述

我正在使用 Jupyter 笔记本参加有关 Apache PySpark 的在线课程。为了轻松打开 Jupyter 笔记本,他们让我将这些代码行输入到我的 bash 配置文件中(我使用的是 MAC OS):

export SPARK_HOME="(INSERTED MY SPARK DIRECTORY)"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

我对 Linux 不太熟悉,课程也没有解释这些代码行的作用。在我这样做之前,我可以通过命令行输入“pyspark”来访问 PySpark。但是现在当我输入“pyspark”时,它会打开一个 jupyter 笔记本。现在我不知道如何从命令行访问它。这段代码有什么作用以及如何访问命令行 pyspark?

标签: apache-sparkpysparkjupyter-notebook

解决方案


您是否使用 Pyspark 的本地安装?

您可以使用https://github.com/minrk/findspark

findspark使用 Anaconda安装。

首先,添加这两行,它将能够找到 pyspark。

import findspark
findspark.init()

import pyspark
sc = pyspark.SparkContext(appName="myAppName")

推荐阅读