scala - 尝试从本地 S3 中的镶木地板文件构建 DataFrame 时出现 403 异常

问题描述

我正在构建一个 Spark 应用程序并尝试在本地运行它，然后再在 EMR 或容器中启动它。当镶木地板文件本身是本地的时，我可以让 DataFrame 正常工作，但如果它在 S3 中，它会拒绝读取镶木地板文件。我尝试设置从 S3a 读取时建议的所有我能想到的变量，这就是我创建 Spark 会话的方式：

package util

import org.apache.spark.sql.SparkSession
import scala.io.Source

object SparkSessionFactory {

  def generateSession(sessionLocation: String): SparkSession = {
    val session = {
      sessionLocation match {
        case "local" =>
          SparkSession.builder().appName("LocalS3SparkProfiler").master("yarn").master("local[*]")
            .config("spark.driver.host", "localhost")
            .config("fs.s3a.enableServerSideEncryption", "true")
            .config("fs.s3a.serverSideEncryptionAlgorithm", "aws:kms")
            .getOrCreate()
      }
    }
    setHadoopConfigs(session, sessionLocation)
    session
  }

  private def setHadoopConfigs(session:SparkSession, sessionLocation:String) = {
    session.sparkContext.hadoopConfiguration.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
    session.sparkContext.hadoopConfiguration.set("fs.s3a.path.style.access", "true")
    sessionLocation match {
      case "local"=> {
        val userHome = System.getProperty("user.home")
        val aWSCredentialsLines = Source.fromFile(s"$userHome/.aws/credentials").getLines.toList

        val key = aWSCredentialsLines(1).substring(aWSCredentialsLines(1).lastIndexOf(" ")).trim
        val secret = aWSCredentialsLines(2).substring(aWSCredentialsLines(2).lastIndexOf(" ")).trim
        val s3Token = aWSCredentialsLines(3).substring(aWSCredentialsLines(3).lastIndexOf(" ")).trim

        session.sparkContext.hadoopConfiguration.set("fs.s3a.access.key", key)
        session.sparkContext.hadoopConfiguration.set("fs.s3a.secret.key", secret)
        session.sparkContext.hadoopConfiguration.set("fs.s3a.session.token", s3Token)
        session.sparkContext.hadoopConfiguration.set("fs.s3a.aws.credentials.provider", "org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider")
      }
    }
  }
}

然后当我尝试读取我调用的数据框时

val spark = SparkSessionFactory.generateSession("local")
val df = spark.read.parquet("s3a://my-bucket/thepath/myparquetfile")

并且抛出的错误如下：

线程“主”com.amazonaws.services.s3.model.AmazonS3Exception 中的异常：禁止（服务：Amazon S3；状态代码：403；错误代码：403 禁止；请求 ID：366CFE11F21144F3；S3 扩展请求 ID：eW4C6PQZ4uSJOPmYKoZ8qCwmK4PwL6eFPwef9e1KLAplcthL2Lsi7Niro77KLAplcthL2Lsi7Niro7KLAplcthL2Lsi7 )，S3 扩展请求 ID：eW4C6PQZ4uSJOPmYKoZ8qCwmK4PwL6eFPwef9e1KLA3kL2LsiCMctZ+ZLYVplZh927iNiSro7ko= 在 com.amazonaws.http.AmazonHttpClient$RequestExecutor.handleErrorResponse(AmazonHttpClient.java:1632) 在 com.amazonaws.http.AmazonHttpClient.java:1632) 在 com.amazonaws.http.AmazonHttpClient.java:1632)(AmazonHttpClient.java:1632) com.amazonaws.http.AmazonHttpClient$RequestExecutor.executeHelper(AmazonHttpClient.java:1058) 在 com.amazonaws.http.AmazonHttpClient$RequestExecutor.doExecute(AmazonHttpClient.java:743) 在 com.amazonaws.http。AmazonHttpClient$RequestExecutor.executeWithTimer(AmazonHttpClient.java:717) 在 com.amazonaws.http.AmazonHttpClient$RequestExecutor.execute(AmazonHttpClient.java:699) 在 com.amazonaws.http.AmazonHttpClient$RequestExecutor.access$500(AmazonHttpClient.java:667) ) 在 com.amazonaws.http.AmazonHttpClient$RequestExecutionBuilderImpl.execute(AmazonHttpClient.java:649) 在 com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:513) 在 com.amazonaws.services.s3.AmazonS3Client.invoke( AmazonS3Client.java:4330) 在 com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:4277) 在 com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:1265)在 com.amazonaws.http.AmazonHttpClient$RequestExecutionBuilderImpl.execute(AmazonHttpClient.java:649) 在 com.amazonaws.http.AmazonHttpClient$RequestExecutor.access$500(AmazonHttpClient.java:667) 处执行 (AmazonHttpClient.java:699)。 amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:513) 在 com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:4330) 在 com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java: 4277) 在 com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:1265)在 com.amazonaws.http.AmazonHttpClient$RequestExecutionBuilderImpl.execute(AmazonHttpClient.java:649) 在 com.amazonaws.http.AmazonHttpClient$RequestExecutor.access$500(AmazonHttpClient.java:667) 处执行 (AmazonHttpClient.java:699)。 amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:513) 在 com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:4330) 在 com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java: 4277) 在 com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:1265)在 com.amazonaws.services.s3 在 com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:4277) 在 com.amazonaws 执行 (AmazonHttpClient.java:513).AmazonS3Client.invoke(AmazonS3Client.java:4330) .services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:1265)在 com.amazonaws.services.s3 在 com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:4277) 在 com.amazonaws 执行 (AmazonHttpClient.java:513).AmazonS3Client.invoke(AmazonS3Client.java:4330) .services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:1265)

我读过的所有内容都表明我需要的凭据就是我提供的凭据。我检查了key、secret和s3Token值，它们看起来是正确的，因为我在另一个使用普通 AWS 开发工具包的项目中使用这些凭证没有问题。

知道问题是什么吗？

标签： scalaapache-sparkamazon-s3

scala - 尝试从本地 S3 中的镶木地板文件构建 DataFrame 时出现 403 异常

问题描述

解决方案

推荐阅读