首页 > 解决方案 > 我们需要启动 spark 来运行 pyspark 吗?

问题描述

这可能是一个新手问题。这是我的场景。

我在我的机器上安装了火花。我还没有启动它(使用 sbin/start-all.sh 或 sbin 文件夹中的任何其他脚本)。然后我打开 pyspark(使用 bin/pyspark),它启动时没有任何错误。我尝试运行示例程序:

>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count() 

它工作没有任何错误。

问题 1:我们不需要运行 spark 来执行 pyspark/spark-shell 程序吗?

问题2:还是只有Spark-submit 需要一个spark 才能启动?

如果我遗漏了什么,请澄清。

标签: apache-sparkpyspark

解决方案


Pyspark 是用于 Spark 的 Python API,可让您将 Python 的简单性和 Apache Spark 的强大功能结合起来,以驯服大数据。要使用 PySpark,您必须在您的机器上安装 python 和 Apache spark。在使用 pyspark 时,运行 pyspark 就足够了。

要在您的机器上本地运行 pyspark:

pyspark2 --master 本地 [*]

请参阅此链接以在 Windows 上安装 pyspark。 https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c


推荐阅读