java - 无法从用于 Spark 的 Java 数据集中的 AWS S3 读取数据
问题描述
我正在尝试将 aws s3 中的数据读取到 Java 中的 dataset/rdd 中,但得到Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities
. 我在 IntelliJ 上用 Java 运行 Spark 代码,所以在 pom.xml 中也添加了 Hadoop 依赖项
下面是我的代码和 pom.xml 文件。
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.api.java.JavaSparkContext;
public class SparkJava {
public static void main(String[] args){
SparkSession spark = SparkSession
.builder()
.master("local")
.config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") .config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
.config("fs.s3n.awsAccessKeyId", AWS_KEY)
.config("fs.s3n.awsSecretAccessKey", AWS_SECRET_KEY)
.getOrCreate();
JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());
String input_path = "s3a://bucket/2018/07/28/zqa.parquet";
Dataset<Row> dF = spark.read().load(input_path); // THIS LINE CAUSES ERROR
}
}
这是 pom.xml 的依赖项
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-aws</artifactId>
<version>3.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>3.1.1</version>
</dependency>
</dependencies>
任何帮助将不胜感激。提前致谢!
解决方案
通过添加流动依赖解决了这个问题:
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.1.1</version>
</dependency>
推荐阅读
- pyaudio - PyAudio 录制速度太快
- python - 在 Python 中键入提示枚举成员值
- tensorflow - 为 tensorflow 构建 debian 包
- python - 熊猫数据框选择行数大于> x的所有行
- c++ - 如何在Windows中获取另一个进程的编辑框的内容?
- c# - 如何将任务添加到 C# Task 并等待所有任务完成?
- php - php foreach 循环不迭代数组的内容,只迭代数组中的第一个值
- html - 为什么这个媒体查询不切换显示属性?
- base64 - Decode value of base64 string in different language gives different output
- html - 如何从堆栈中替换 html 标签以在 Blade、Laravel 中推送新标签