amazon-web-services - 如何在 AWS Glue 中导入 Spark 包?
问题描述
我想使用 GrameFrames 包,如果我要在本地运行 pyspark,我会使用以下命令:
~/hadoop/spark-2.3.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11
但是我将如何使用这个包运行 AWS Glue 脚本?我在文档中找不到任何东西...
解决方案
可以按如下方式使用图框:
例如从这里下载 graphframes python 库包文件。解压.tar.gz
后重新归档到.zip
. 放在 s3 中您的胶水作业可以访问的某个位置
设置胶水作业时:
- 确保您的 Python 库路径引用了 zip 文件
- 对于作业参数,您需要
{"--conf": "spark.jars.packages=graphframes:graphframes:0.6.0-spark2.3-s_2.11"}
推荐阅读
- sql - 如何根据 SQL 中的特定列使用“计数”
- marklogic - Marklogic 安全角色
- botframework - 如何将文件上传按钮添加到微软团队机器人框架?
- java - Android MediaController seekbar 在 VideoView 中无法正常工作
- python - 从数据框中提取季度的最后一天
- c++ - C++ - 将具有共同属性的不同、唯一类型的两个排序向量合并到一个新的排序向量中
- python - 尝试在无法访问 Internet 的系统上安装 python 库(pywin32)
- react-native - 在 iOS 设备上运行时对代码的更改未反映本机反应
- postgresql - kubernetes 如何将 pod 暴露给集群机器之外的东西?
- r - 我如何删除负值和零值?