google-cloud-platform - 某些列的 Google BigQuery bq 负载?
问题描述
我有一个.orc
文件数据集。我使用 CLI 使用utilsbq load
中的命令将我的数据加载到 BQ 中。gcloud
我的数据有 4 列。第三列与第四列重复,但我想保留第四列。有没有办法只摄取带有文件bq load
的某些列orc
?
解决方案
要仅摄取某些列,您可以在命令末尾指定列:
bq load --source_format=ORC DATASET.TABLE gs://YOU-FILES_LOCATION COLUMN1:TYPE, COLUMN2:TYPE, ...
让我们假设两个场景:
- 在第一种情况下,您没有表格,
BigQuery
并且只想加载ORC
文件的某些字段。如果您运行上面指定某些字段的命令,将创建一个仅包含该字段的表。 - 在第二种情况下,您已经有一个
BigQuery
包含NULLABLE
字段的表。在这种情况下,如果您运行上面指定字段的命令,您将仅将数据的该字段加载到表中,而其他字段将NULL
用于该行。
如果它可以帮助您解决问题,请告诉我。
推荐阅读
- javascript - 如何在 JQuery 中引用 WTForms 表单字段
- javascript - 在 Cloud Firestore 中使用 .where 搜索多个唯一 ID
- python - 实体匹配包 deepmatcher 出错
- ruby-on-rails - gem administrate '未初始化的常量 Admin::Administrate' 的问题
- node.js - \"data\" 参数必须是字符串类型或 Buffer、TypedArray 或 DataView 的实例。收到未定义
- pyspark - PySpark 合并结构内的结构字段
- java - 不确定在我的 Spring MVC 应用程序中在哪里进行外部 API 调用
- recursion - NetSuite SuiteAnalytics Connect 递归查询
- javascript - 如何在 Phaser 3 中引用 GameObject
- javascript - 执行完所有功能后如何添加新文本?