apache-spark - Spark 无法处理递归 avro 数据
问题描述
我有avsc
如下架构:
{
"name": "address",
"type": [
"null",
{
"type":"record",
"name":"Address",
"namespace":"com.data",
"fields":[
{
"name":"address",
"type":[ "null","com.data.Address"],
"default":null
}
]
}
],
"default": null
}
在 pyspark 中加载此数据时:
jsonFormatSchema = open("Address.avsc", "r").read()
spark = SparkSession.builder.appName('abc').getOrCreate()
df = spark.read.format("avro")\
.option("avroSchema", jsonFormatSchema)\
.load("xxx.avro")
我得到了这样的例外:
"Found recursive reference in Avro schema, which can not be processed by Spark"
我尝试了许多其他配置,但没有任何成功。要执行我使用 spark-submit:
--packages org.apache.spark:spark-avro_2.12:3.0.1
解决方案
这是一个预期的功能,您可以查看“问题”:
推荐阅读
- javascript - Html Canvas 随机开始位置之后移动
- javascript - 我无法让我的 Ajax jquery 发布请求正确发送对象?
- java - 如何从另一个类的活动/类中获取视图?
- excel - UDF 随机数生成器类型不匹配
- cloud - IBM 云安全顾问
- uwp - UWP ListView Drop get index
- tfs - TFS SDK 中的 GetItems 和 GetExtendedItems 有什么区别
- javascript - for...of 语句深度优先遍历树 javascript
- javascript - React - 从其他链接导航到部分
- javascript - 页面刷新后,Ajax POST 到 Flask 不起作用