parquet - 在 AWS 胶水中提供用户定义的列名
问题描述
我有很多镶木地板文件。我需要通过 Amazon Glue 读取它们,然后为正在读取的表提供列名。
问题是镶木地板已经有爬虫正在读取的列名并将其显示在表中。是否可以在胶水中为这些镶木地板文件提供我的列名
解决方案
要将检测到的列名称替换为您自己的名称,您可以:
- 在 DynamicFrame 上
使用以下内置转换之一
- ApplyMapping - 将声明性映射应用到此 DynamicFrame 并返回应用了这些映射的新 DynamicFrame。(源列、源类型、目标列、目标类型)
- RenameField - 重命名此 DynamicFrame 中的字段并返回一个新的 DynamicFrame,该字段已重命名。(旧名称 -> 新名称)
有关详细信息,请参阅Scala或Python ETL 编程指南。
或者,如果您不需要不断地重新爬取数据(或者如果您这样做,可以防止胶水爬虫通过爬虫配置更新现有数据目录表),请尝试手动更新数据目录字段名称。
或者,如果您的要求更加离散,map
则可以使用转换将 DynamicFrame 中的每个 DynamicRecord 转换为您选择的新 DynamicRecord。
推荐阅读
- javascript - 非 TypeScript npm 包的自动完成功能在 PhpStorm 中不起作用
- discord.py - Discord.py 如果这个失败函数怎么做
- javascript - 如何检查事件是否已经在 JavaScript 中处理?
- elasticsearch - 组合键的墓碑
- python - “纹理”示例适用于 PySide2,但不适用于 PySide6
- swift - Firebase 的 ref().child(stringPath: String) 返回整个顶级集合
- button - 更改表单中的按钮值
- perl - Perl DateTime 纳秒始终为 0
- envoyproxy - 使用 Envoy 进行蓝/绿部署
- python - 绘制 geopandas 会改变 matplotlib 中的图形大小