首页 > 解决方案 > 使用 spark-scala 在 Databricks 中解析嵌套 XML 文件

问题描述

我正在尝试使用 spark/scala 解析具有多个行标签的嵌套 xml 文件。解析后,我必须将数据加载到表中。但是,我无法将多个行标签转换为适当的表格格式。我在 azure databricks 集群中使用 spark-xml 库。有人可以帮忙。

下面是文件的示例源和架构。原始文件大小约为 20MB

</images>

    SCHEMA:

schv    
cnt          
ctd          
cgr        
st            
pd           
sid         
pid         
nm             
ct             
state            
pcd       
cty          
pty      
rshp     
rshp_type
attrb           
tmzn         
clsgn         
edlag           
bcaslag        
num              
mjrnum         
mirnum         
affil            
afffil_pid  
url              
mktid         
mktid_type    
imgtyp       
wdt            
hgt           
prmy          
ctrgy         
uri              
ctdtline       

标签: xmlscalaapache-sparkdatabricksazure-databricks

解决方案


推荐阅读