xml - 使用 spark-scala 在 Databricks 中解析嵌套 XML 文件
问题描述
我正在尝试使用 spark/scala 解析具有多个行标签的嵌套 xml 文件。解析后,我必须将数据加载到表中。但是,我无法将多个行标签转换为适当的表格格式。我在 azure databricks 集群中使用 spark-xml 库。有人可以帮忙。
下面是文件的示例源和架构。原始文件大小约为 20MB
</images>
SCHEMA:
schv
cnt
ctd
cgr
st
pd
sid
pid
nm
ct
state
pcd
cty
pty
rshp
rshp_type
attrb
tmzn
clsgn
edlag
bcaslag
num
mjrnum
mirnum
affil
afffil_pid
url
mktid
mktid_type
imgtyp
wdt
hgt
prmy
ctrgy
uri
ctdtline
解决方案
推荐阅读
- time-series - 时间序列预测的特征缩放
- python - 如果我必须删除子数组中的最大元素,如何找到子数组的最大和
- ruby - 解析“Gemfile”时出错:未定义的局部变量或方法“init”
- azure - 如何从 Microsoft 托管代理虚拟机访问本地服务器?
- c - 用C语言反转循环双链表
- node.js - Serverless-offline 抛出“配置错误”或“无法读取未定义的属性‘选项’”
- flutter - Dart - 错误:需要声明,但得到'}'
- python - 我怎样才能只输出整数?
- spring - 如何判断用户是否已从 Spring 中的不安全页面进行身份验证?
- nginx - jupyter notebook:无法验证 WebSocket 连接