首页 > 解决方案 > 使用 AWS Glue (python) 从 redis 获取数据

问题描述

我正在尝试使用 AWS Glue(python) 从 redis 获取数据。我想知道如何从 spark 上下文连接到 redis。Redis 也托管在同一 AWS 区域

我在redis网站上看到了代码。找不到 Pyspark 的代码示例。

import com.redislabs.provider.redis._

...

sc = new SparkContext(new SparkConf()
      .setMaster("local")
      .setAppName("myApp")

      // initial redis host - can be any node in cluster mode
      .set("redis.host", "localhost")

      // initial redis port
      .set("redis.port", "6379")

      // optional redis AUTH password
      .set("redis.auth", "")
  )

是否可以从 pyspark 连接到 redis ?

标签: redispysparkaws-glue

解决方案


问:AWS Glue 支持哪些数据源?

AWS Glue 原生支持存储在 Amazon Aurora、Amazon RDS for MySQL、Amazon RDS for Oracle、Amazon RDS for PostgreSQL、Amazon RDS for SQL Server、Amazon Redshift 和 Amazon S3 以及 MySQL、Oracle、Microsoft SQL Server 和在 Amazon EC2 上运行的 Virtual Private Cloud (Amazon VPC) 中的 PostgreSQL 数据库。可以从 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 轻松访问存储在 AWS Glue 数据目录中的元数据。您还可以编写自定义 Scala 或 Python 代码并将自定义库和 Jar 文件导入您的 Glue ETL 作业,以访问 AWS Glue 本身不支持的数据源。有关导入自定义库的更多详细信息,请参阅我们的文档。


推荐阅读