aws-glue - 使用 AWS Glue 在单独的元素中使用列名和值解析 xml
问题描述
嗨,我有大量来自外部源的 XML 文件必须解析到数据库中。它们看起来像这样:
<root>
<object id="123">
<attributes>
<attribute>
<type>foo</type>
<value>bar</value>
</attribute>
<attribute>
<type>qwe</type>
<value>asd</value>
</attribute>
</attributes>
</object>
</root>
最明显的方法是使用“对象”作为分类器,但我不知道如何将属性映射到列及其值。我尝试的另一种方法是使用属性作为分类器,但我离解决键值问题并不近,而且我缺少对象 ID。我开始认为,首先在胶水之外将 XML 预先格式化为更可用的格式可能会更好。
解决方案
我看到一个 aws-glue 标签。看起来他们有处理 XML 的东西?:aws-glue-programming-etl-format
根据这一点,“我开始认为在胶水之外首先将 XML 预格式化为更可用的格式可能会更好”,也许转换为 json 会有所帮助?你可以在网上找到很多工具。
推荐阅读
- android - 与 SymmetricDS 服务器同步时,错误导致批处理失败,但未尝试加载批处理 000--9999 的数据
- angular - 将脚本添加到 Angular 中的组件视图
- angular5 - Angular5:Dygraph 未在运行时定义
- python - 使用 python pandas 查找特定行的所有日期
- java - Gson JSON 反序列化不适用于枚举
- apache2 - 重定向除 Apache 000-default.conf 中的一个以外的所有 url
- php - 更新 Mysql 中的图像
- angularjs - 在 angularjs 应用程序中的引导动态选项卡之间导航
- git - 如何在 Git 中聚合 2 个分支
- kendo-ui - 将 Angular 升级到 6.1.3 时出现 Kendo 错误