python - 大查询数据流加载到 NULL 分区
问题描述
使用 apache beam Python SDK,我设置了一个数据流,该数据流写入 Big Query 上日期分区表中的各个分区。根据这个文档,每个日期分区表都有特殊NULL
的UNPARTITIONED
分区。根据那些文档,我可以UNPARTITIONED
通过将日期设置为过去或将来的日期来写入分区,但是我怎样才能写入NULL
分区呢?
我正在尝试根据数据中的值将数据加载到分区,有时该字段为空。我宁愿写到NULL
分区而不是为空值编一个日期。
作为参考,我写到日期分区做这样的事情:
beam.io.Write(beam.io.BigQuerySink(table_id+'$20180925',
project=project_id, dataset=dataset_id, schema=schema))
我需要用什么来代替$20180925
写信NULL
?
解决方案
NULL分区仅在由数据中的列分区的表中可用,在摄取时间分区表上不可用。如果您正在写入列分区表,您可以简单地不在特定行中填充该列的值并使用 table_id(没有任何分区后缀)写入NULL分区。
推荐阅读
- apache-kafka - Kafka Streams Applications - 我们可以在一个微服务中拥有 2 个流应用程序吗?
- c# - 使用窗口形式c#中的委托传递数据(订阅和取消订阅)
- git - 从我当地的主人那里挑选上一个提交的最佳方法
- c++ - 如何在 shell 环境(winapi)中获取带扩展名的文件名?
- openedge - Openedge 在现有文本文件的开头添加文本
- react-native - HitRect 如何在 React Native 中与 Pressable 一起使用?
- c++ - 错误:“class Animal::animalSound”的使用无效
- flutter - 从长列表中动态创建小部件
- azure - Azure Build Pipeline - 如何授予对存储帐户的访问权限?
- common-data-service - 如何将“DataVerse for Teams”环境“升级”到常规环境?