apache-spark - 使用 Spark BigQueryConnector 读取 Big Query
问题描述
我想使用火花大查询连接器读取一个大查询并将分区信息传递给它。这工作正常,但它读取整个表格。我想根据一些分区值过滤数据。我该怎么做?我不想阅读完整的表格,然后在 spark 数据集上应用过滤器。我想在读取自身时传递分区信息。这甚至可能吗?
Dataset<Row> testDS = session.read().format("bigquery")
.option("table", <TABLE>)
//.option("partition",<PARTITION>)
.option("project", <PROJECT_ID>)
.option("parentProject", <PROJECT_ID>)
.load();
解决方案
过滤器以这种方式工作 .option("filter", "_PARTITIONTIME = '2020-11-23 13:00:00'")
推荐阅读
- graph - 图表 - 更新 intune 合规性状态
- html - 在配置文件上响应式显示表格
- r - 如果它们符合 R 中的某些要求,则删除最后两个字符
- sql - 在下一个不同字符之前删除所有出现的字符
- javascript - 如何正确地使预加载器成为页面
- powershell-3.0 - 如何从文件夹及其子文件夹文件中获取哈希 .csv 列表?
- python - 尝试安装“pymongo”库时出错
- firebase - Can't retrieve a Stream List of map from cloud firestore for flutter using Getx Statemanagement [Updated]
- python - OpenCV 和 Python - 如何使用卡尔曼滤波器从 OpenCV 检测到的不规则多边形中过滤噪声?
- python - 在枚举 Z3 解决方案时,模型没有给出变量的值