首页 > 解决方案 > Apache Avro 作为 Apache Spark 2.4 中的内置数据源

问题描述

我最近阅读了这篇文章并尝试了该示例,但是当我运行时

val usersDF = spark.read.format("avro")
                        .load("examples/src/main/resources/users.avro")

但是,当我尝试运行它时,这给了我一个错误。

线程“主”org.apache.spark.sql.AnalysisException 中的异常:找不到数据源:avro。自 Spark 2.4 以来,Avro 是内置但外部的数据源模块。请按照“Apache Avro 数据源指南”的部署部分部署应用程序。在 org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:647)

标签: apache-spark

解决方案


在阅读Apache Avro Data Source Guide后,我认为 build.sbt 需要使用新的依赖项进行更新。

val sparkVersion = "2.4.0"
"org.apache.spark" %% "spark-avro" % sparkVersion

在此之后一切正常。


推荐阅读