首页 > 解决方案 > 使用 AWS Glue 在单独的元素中使用列名和值解析 xml

问题描述

嗨,我有大量来自外部源的 XML 文件必须解析到数据库中。它们看起来像这样:

<root>
  <object id="123">
    <attributes>
      <attribute>
        <type>foo</type>
        <value>bar</value>
      </attribute>
      <attribute>
        <type>qwe</type>
        <value>asd</value>
      </attribute>
    </attributes>
  </object>
</root>

最明显的方法是使用“对象”作为分类器,但我不知道如何将属性映射到列及其值。我尝试的另一种方法是使用属性作为分类器,但我离解决键值问题并不近,而且我缺少对象 ID。我开始认为,首先在胶水之外将 XML 预先格式化为更可用的格式可能会更好。

标签: aws-glue

解决方案


我看到一个 aws-glue 标签。看起来他们有处理 XML 的东西?:aws-glue-programming-etl-format

根据这一点,“我开始认为在胶水之外首先将 XML 预格式化为更可用的格式可能会更好”,也许转换为 json 会有所帮助?你可以在网上找到很多工具。


推荐阅读