pyspark - 如何在 Glue ETL 中启用 pySpark?
问题描述
我有一个非常简单的 Glue ETL 作业,代码如下:
from pyspark.context import SparkContext
sc = SparkContext.getOrCreate()
conf = sc.getConf()
print(conf.toDebugString())
作业是在启用 Redshift 连接的情况下创建的。执行作业时,我得到:
No module named pyspark.context
公共文档似乎都提到、指出并暗示了 pyspark的可用性,但为什么我的环境抱怨它没有 pyspark?我错过了哪些步骤?
最好的问候, 林
解决方案
Python Shell 作业仅支持 Python 和 pandas、Scikit-learn 等库。它们不支持 PySpark,因此您应该创建一个作业类型 = Spark 且 ETL 语言 = Python 以使其工作。
推荐阅读
- java - 更改属性文件的名称导致找不到它
- spring - Spring Data JPA 将动态列名作为参数传递给查询
- asp.net - 在会话状态模式下,在现实世界的应用程序中,Inproc、StateServer、Sqlserver 哪个更好?
- python - 如何读取扩展名为 a01 的文件
- c# - 在运行时获取 LOG 方法中的类名和方法名会导致任何性能问题吗?
- jenkins - 在多个 TFS 项目之间共享 Jenkins 凭据
- python - 我想将具有浮点值的 75000x10000 矩阵有效地写入数据库
- python - Pandas merge_asof 不想在 pd.Timedelta 上合并,给出错误“必须与 int64 类型兼容”
- android - 查看 APK 时的警告消息
- javascript - 带有证书的 NodeJS REST 调用。我怎么知道要使用哪个文件?