apache-spark - 我们可以从 Spark 的 StructType 为 Hive 创建一个 avsc 文件吗?
问题描述
我们正在创建一个分区的配置单元表(外部)。我们创建一个 hdfs 文件夹并在文件夹中放置多个分区的 AVRO 文件。
我们正在使用 Apache spark 生成 Avro 文件。
然后我们读取 hdfs 文件夹中存在的任何“.avro”文件并创建 JSON(然后是 avsc 文件)。然后我们使用存在的数据和创建的 avsc 文件创建 hive 表。
CREATE TABLE avro_tbl
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT
org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
LOCATION 'hdfs://</path/to/avro_file/>'
TBLPROPERTIES (
'avro.schema.url'='/hdfs/path/to/avro_schema_file.avsc');
但我想在我们将任何数据保存在 hdfs 上之前创建 avsc 文件。我们在代码中有 Avro 文件的模式。
这可能吗?
谢谢阿努杰
解决方案
推荐阅读
- r - 更新闪亮的数据表
- prometheus - 在普罗米修斯中显示任意@Timed 指标
- html - 如何将 HTML 的输入值限制为预定义列表中的值?
- pandas - 在 pandas 数据框中将浮点天数转换为 timedelta64[ns]
- python - 使用分类索引值对特定级别的多索引系列进行排序
- python - 如何检查列表中的任何元素是否可以在给定的字符串中找到?
- git - Git 备份未跟踪的文件
- python - 如何查找不同列表中项目的数量并进行更改?
- r - 如何使用 R 为 dhs 家庭暴力数据加权数据(科特迪瓦 2011-2012)
- flutter - Flutter 解析子树中共享相同标签的多个英雄