首页 > 解决方案 > 我正在尝试使用 pyspark 从 S3 读取 csv

问题描述

我是 pyspark 的新手,我正在尝试从具有以下架构的 S3 路径读取 CSV

request_id, 
product_id, 
request_time, 
availability_flag, 
discount_shown_flag

我需要在一天内识别至少 1 个请求具有 availability_flag = 'Y' 但没有请求具有 discount_shown_flag = 'Y' 的所有产品</p>

我尝试了下面的代码代码-

     .hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "awsAccessKeyId value")
spark.sparkContext
     .hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "awsSecretAccessKey value")
spark.sparkContext
      .hadoopConfiguration.set("fs.s3n.endpoint", "s3.amazonaws.com")

spark.read.format('csv').options(header='true', inferSchema='true')
    .load('s3a://path_to_csv/csv/sample.csv')

我尝试连接上面的部分不正确,有什么建议吗?

标签: python-3.xapache-sparkpyspark

解决方案


推荐阅读