pyspark - 如何在 pyspark anaconda 中添加 jar 文件?
问题描述
from pyspark.sql import Row
from pyspark import SparkConf, SparkContext
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g")
sc=SparkContext.getOrCreate(conf)
dfv = sc.textFile("./part-001*.gz")
我已经通过 anaconda 安装了 pyspark,我可以在 anaconda python 中导入 pyspark。但我不知道如何在conf
.
我试过了
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.packages','file:///XXX,jar')
但它不起作用。在这里添加jar文件的任何正确方法?
解决方案
文档说:
spark.jars.packages:要包含在驱动程序和执行程序类路径中的 jar 的 Maven 坐标的逗号分隔列表。坐标应为 groupId:artifactId:version。如果给定 spark.jars.ivySettings 工件将根据文件中的配置进行解析,否则将在本地 maven 存储库中搜索工件,然后在 maven central 和最后由命令行选项给出的任何其他远程存储库中搜索——存储库。有关更多详细信息,请参阅高级依赖管理。
相反,您应该简单地使用spark.jars
:
spark.jars:以逗号分隔的 jar 列表,包含在驱动程序和执行程序类路径中。允许使用 Glob。
所以:
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.files','file:///XXX.jar')
推荐阅读
- python - 循环遍历 csv 文件中的单词并在 python 中替换
- css - 在 CSS / SCSS 中具有类的下一个兄弟姐妹
- javascript - 传单标记集群自动
- vim - 在vim中的一个命令中替换模式之前和之后的文本
- ffmpeg - ffmpeg 到 kurento rtp 流断断续续的视频问题
- javascript - 在 Javascript 中填充 JSON 中的动态值
- python - rpy2 在脚本结束时产生无用的警告
- mongodb - 使用 MongoDB Spring Data Aggregation 匹配日期时间字段的问题
- c# - 将标签定位到对象
- jquery - 将更改事件jQuery上的字符串“.00”(零零点)连接到输入