首页 > 解决方案 > 如何在 Glue ETL 中启用 pySpark?

问题描述

我有一个非常简单的 Glue ETL 作业,代码如下:

from pyspark.context import SparkContext

sc = SparkContext.getOrCreate()
conf = sc.getConf()

print(conf.toDebugString())

作业是在启用 Redshift 连接的情况下创建的。执行作业时,我得到:

No module named pyspark.context

公共文档似乎都提到、指出并暗示了 pyspark的可用性,但为什么我的环境抱怨它没有 pyspark?我错过了哪些步骤?

最好的问候, 林

标签: pysparkaws-glue

解决方案


Python Shell 作业仅支持 Python 和 pandas、Scikit-learn 等库。它们不支持 PySpark,因此您应该创建一个作业类型 = Spark 且 ETL 语言 = Python 以使其工作。


推荐阅读