python-3.x - 我正在尝试使用 pyspark 从 S3 读取 csv
问题描述
我是 pyspark 的新手,我正在尝试从具有以下架构的 S3 路径读取 CSV
request_id,
product_id,
request_time,
availability_flag,
discount_shown_flag
我需要在一天内识别至少 1 个请求具有 availability_flag = 'Y' 但没有请求具有 discount_shown_flag = 'Y' 的所有产品</p>
我尝试了下面的代码代码-
.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "awsAccessKeyId value")
spark.sparkContext
.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "awsSecretAccessKey value")
spark.sparkContext
.hadoopConfiguration.set("fs.s3n.endpoint", "s3.amazonaws.com")
spark.read.format('csv').options(header='true', inferSchema='true')
.load('s3a://path_to_csv/csv/sample.csv')
我尝试连接上面的部分不正确,有什么建议吗?
解决方案
推荐阅读
- pvlib - PVLIB TMY3 - 能够以 10 分钟的分辨率工作?
- python - 在终端中从 Google 存储桶运行 Python 脚本
- c - 在结构内的数组上使用 scanf 时不断收到分段错误
- istio - IstioOperator 和 sidecar 自动注入
- sles - 问题:在 SLES12 中安装 edb-as12-server 时,没有提供 llvm6-6.0.1-43.25.sles12.x86_64 所需的 libjsoncpp.so.1()(64bit)
- oracle - 想在 oracle apex 中更改区域名称
- clang - 如何在 Windows 命令提示符下使用 clang-format
- firebase - 用颤振检查firebase中的多个字段
- modeling - 从旧版本 (2017) 导入 Oracle SQL Developer Data Modeler
- logistic-regression - 逻辑回归:成本函数不递减