apache-spark - 我们需要启动 spark 来运行 pyspark 吗?
问题描述
这可能是一个新手问题。这是我的场景。
我在我的机器上安装了火花。我还没有启动它(使用 sbin/start-all.sh 或 sbin 文件夹中的任何其他脚本)。然后我打开 pyspark(使用 bin/pyspark),它启动时没有任何错误。我尝试运行示例程序:
>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count()
它工作没有任何错误。
问题 1:我们不需要运行 spark 来执行 pyspark/spark-shell 程序吗?
问题2:还是只有Spark-submit 需要一个spark 才能启动?
如果我遗漏了什么,请澄清。
解决方案
Pyspark 是用于 Spark 的 Python API,可让您将 Python 的简单性和 Apache Spark 的强大功能结合起来,以驯服大数据。要使用 PySpark,您必须在您的机器上安装 python 和 Apache spark。在使用 pyspark 时,运行 pyspark 就足够了。
要在您的机器上本地运行 pyspark:
pyspark2 --master 本地 [*]
请参阅此链接以在 Windows 上安装 pyspark。 https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c
推荐阅读
- javascript - 根据具有多个 .where 的过滤查询从集合 Cloud Firestore 中获取值
- c++ - 使用变音符号迭代字符串时出现问题
- python - 在 Python 中制作令牌
- python - Networkx:如何为一次绘制多棵树指定多个根?
- c - 斐波那契数列的项可以是负数吗?
- node.js - Node.js http.createServer 实际是如何工作的?
- c# - Visual Studio 在包管理器控制台运行脚本迁移时崩溃
- html - 如何在 html 中将卡片并排放置?
- javascript - 为什么我的组件状态只更新一次
- javascript - 如何使用 JSON 的属性而不导致错误