首页 > 解决方案 > 使用 Spark BigQueryConnector 读取 Big Query

问题描述

我想使用火花大查询连接器读取一个大查询并将分区信息传递给它。这工作正常,但它读取整个表格。我想根据一些分区值过滤数据。我该怎么做?我不想阅读完整的表格,然后在 spark 数据集上应用过滤器。我想在读取自身时传递分区信息。这甚至可能吗?

 Dataset<Row> testDS = session.read().format("bigquery")
                    .option("table", <TABLE>)
                    //.option("partition",<PARTITION>)
                    .option("project", <PROJECT_ID>)
                    .option("parentProject", <PROJECT_ID>)
                    .load();

标签: apache-sparkgoogle-cloud-platformgoogle-bigquery

解决方案


过滤器以这种方式工作 .option("filter", "_PARTITIONTIME = '2020-11-23 13:00:00'")


推荐阅读