首页 > 解决方案 > 来自 Spark 安装的 Pyspark VS Pyspark python 包

问题描述

刚开始学spark,对这个概念有点迷糊,所以从spark安装中,我们得到spark安装子文件夹下的pyspark,我理解是shell,从python包中我们也可以通过 pip install pyspark 安装 python 包,这样我们就可以运行 python 代码而不是将其提交到集群,那么这两者有什么区别呢?同样在 anaconda 中,我们可以使用 findspark 并从那里使用 pyspark,这是否意味着它没有使用 python 包中的 pyspark?

加上在现实世界中的 spark 应用程序开发,在哪个场景中使用了什么?提前致谢 。

标签: apache-sparkpysparkpyspark-sql

解决方案


如果你pip install是,那只会在本地安装必要的 Python 库,并且不会包含spark-submit脚本或其他 Spark 配置文件,否则你会通过下载所有 Spark 获得。

因此,在笔记本之外的 Spark 的“现实世界”中,您可以将 Python 代码打包为 Zip,然后使用该提交脚本将其提交到集群,或者在代码本身中设置 master 和所有 Spark 选项,没有那么灵活


推荐阅读