google-bigquery - Spotfire 和 BigQuery
问题描述
我对 Spotfire 上的 BigQuery 连接器感到非常困惑。它正在服用!非常!很长时间在内存中导入我的数据集。
我的配置:AWS windows 实例上的 spotfire(8vCPU - 32Go RAM)。BigQuery 上的数据集 50Go >100M 行。
是的 - 我应该对如此大的数据集使用数据库内并将查询推送到 BigQuery 并仅使用 Spotfire 进行显示,但这不是我今天的问题
今天我试图了解导入的工作原理以及为什么需要这么长时间。此导入作业在 21 小时前开始,但仍未完成。服务器的资源几乎没有使用(CPU、磁盘、网络)。
测试完成:
- 我尝试从 Redshift 导入数据,速度更快(22Go 需要 14 分钟)
- 我检查了导入期间使用的资源:网络速度 (Redshift ~ 370Mbs, BQ ~ 8Mbs for 30min), CPU (Redshift ~ 25%, BQ < 5%), RAM (Redshift & BQ ~ 27Go), Disk write (Redshift 30Mbs, BQ 5MB)
我真的不明白 Spotfire 在内存中从 BQ 导入数据集时实际上在做什么。似乎没有使用服务器资源,并且除了运行时间之外没有任何状态指示。
任何 Spotfire 专家对正在发生的事情有任何见解吗?BigQuery 的连接器是否实际上不用于内存分析 - 实际的实施限制因素是什么?
谢谢!
解决方案
我们遇到了以下 Spotfire 版本中修复的问题:
TS 10.10.3 LTS HF-014 TS 11.2.0 HF-002
还请对从 BigQuery 提取数据时使用 Storage API 的想法进行投票和评论:
https://ideas.tibco.com/ideas/TS-I-7890
谢谢,
Thomas Blomberg 高级产品经理 TIBCO Spotfire
推荐阅读
- python - pip install pyinstaller 失败,无法连接到我没有任何代理设置的代理
- sql - Oracle SQL - 如何比较同一张表中两组之间的行数?
- mysql - 1 个 pod 在 Minikube 上有未绑定的即时 PersistentVolumeClaims
- regex - 多个 JSON 字符串的正则表达式
- javascript - 未知方法:Internet Explorer 11 中的 selectSingleNode() || Javascipt
- python-3.x - 截至该日期,将每笔交易映射到其类别
- javascript - 在 API 调用之前 React 钩子组件渲染
- if-statement - 表达式 F# 中出现意外的中缀运算符
- java - Kotlin:如果前面没有数字,如何不重复数学运算?
- r - 包 Rmpi 已安装,但 R 返回“正在加载所需的包:Rmpi”