apache-spark - 来自 Spark 安装的 Pyspark VS Pyspark python 包
问题描述
刚开始学spark,对这个概念有点迷糊,所以从spark安装中,我们得到spark安装子文件夹下的pyspark,我理解是shell,从python包中我们也可以通过 pip install pyspark 安装 python 包,这样我们就可以运行 python 代码而不是将其提交到集群,那么这两者有什么区别呢?同样在 anaconda 中,我们可以使用 findspark 并从那里使用 pyspark,这是否意味着它没有使用 python 包中的 pyspark?
加上在现实世界中的 spark 应用程序开发,在哪个场景中使用了什么?提前致谢 。
解决方案
如果你pip install
是,那只会在本地安装必要的 Python 库,并且不会包含spark-submit
脚本或其他 Spark 配置文件,否则你会通过下载所有 Spark 获得。
因此,在笔记本之外的 Spark 的“现实世界”中,您可以将 Python 代码打包为 Zip,然后使用该提交脚本将其提交到集群,或者在代码本身中设置 master 和所有 Spark 选项,没有那么灵活
推荐阅读
- python - 使用 Presto jar 加载 pyspark shell 时无法使用 pyspark 的 S3 功能
- python - 如何根据另一个数据框中的列的 value_counts 创建一个新的数据框,但在其他列上具有某些条件?
- python-3.x - 将附件中的图像保存在 couchdb
- c# - .NET 多线程调用 Web 服务
- c++ - 致命错误:在 Mac 中的 VScode 中的 C++ 中找不到“plist/Node.h”文件错误
- php - 如何使用 PHP_EOL?
- reactjs - 如何在 React 材料中的列表项之间创建一个空格
- node.js - MySQL数据库连接
- node.js - 如何在节点js中合并其他表的响应属性
- python - 使用带索引的 for 循环,解析为单独的列表