首页 > 解决方案 > 如何在 AWS Glue 中导入 Spark 包?

问题描述

我想使用 GrameFrames 包,如果我要在本地运行 pyspark,我会使用以下命令:

~/hadoop/spark-2.3.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11

但是我将如何使用这个包运行 AWS Glue 脚本?我在文档中找不到任何东西...

标签: amazon-web-servicesapache-sparkpysparkaws-glue

解决方案


可以按如下方式使用图框:

例如从这里下载 graphframes python 库包文件。解压.tar.gz后重新归档到.zip. 放在 s3 中您的胶水作业可以访问的某个位置

设置胶水作业时:

  • 确保您的 Python 库路径引用了 zip 文件
  • 对于作业参数,您需要{"--conf": "spark.jars.packages=graphframes:graphframes:0.6.0-spark2.3-s_2.11"}

推荐阅读