amazon-web-services - 从 AWS Glue 作业中的数据源读取标头
问题描述
我有一个从数据源读取的 AWS Glue 作业,如下所示:
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "dev-data", table_name = "contacts", transformation_ctx = "datasource0")
但是当我在动态帧上调用 .toDF() 时,标题是“col0”、“col1”、“col2”等,而我的实际标题位于数据帧的第一行。
注意 - 我无法手动设置它们,因为数据源中的列是可变的,并且在循环中迭代列以设置它们会导致错误,因为您必须多次设置相同的数据框变量,而胶水可以'处理。
从数据源读取时如何捕获标头?
解决方案
你可以试试withHeader参数。例如
dyF = glueContext.create_dynamic_frame.from_options(
's3',
{'paths': ['s3://awsglue-datasets/examples/medicare/Medicare_Hospital_Provider.csv']},
'csv',
{'withHeader': True})
这方面的文档可以在这里找到
推荐阅读
- django - 使用不在按字段分组的字段排序 django orm
- terraform - vSphere 错误 - 配置的 PCI 设备未连接到 VM
- amazon-web-services - 写 docker 日志 Amazon S3
- zebra-printers - 使用代码配置 Zebra 打印机属性
- react-native - 如何从 React Native 中的数组中依次播放曲目?
- javascript - TypeError:无法读取 react-native 中未定义的属性“样式”
- gitlab-ci - 检测脚本是否在 Buildbot 的上下文中运行
- angular - 如何根据 Angular 中的组合框选择填充文本框?
- java - 两个布尔变量同时为真或均为假的解释
- c++ - 需要帮助理解输出