首页 > 解决方案 > 在 AWS 胶水中提供用户定义的列名

问题描述

我有很多镶木地板文件。我需要通过 Amazon Glue 读取它们,然后为正在读取的表提供列名。

问题是镶木地板已经有爬虫正在读取的列名并将其显示在表中。是否可以在胶水中为这些镶木地板文件提供我的列名

标签: parquetaws-glue

解决方案


要将检测到的列名称替换为您自己的名称,您可以:

  • 在 DynamicFrame 上 使用以下内置转换之一
    • ApplyMapping - 将声明性映射应用到此 DynamicFrame 并返回应用了这些映射的新 DynamicFrame。(源列、源类型、目标列、目标类型)
    • RenameField - 重命名此 DynamicFrame 中的字段并返回一个新的 DynamicFrame,该字段已重命名。(旧名称 -> 新名称)

有关详细信息,请参阅ScalaPython ETL 编程指南。

或者,如果您不需要不断地重新爬取数据(或者如果您这样做,可以防止胶水爬虫通过爬虫配置更新现有数据目录表),请尝试手动更新数据目录字段名称。

或者,如果您的要求更加离散,map则可以使用转换将 DynamicFrame 中的每个 DynamicRecord 转换为您选择的新 DynamicRecord。


推荐阅读