google-cloud-platform - 分区需要多少行才能在 BigQuery 中获得良好的性能?
问题描述
我每天都会收到来自应用程序的 100 行。我公司的良好做法建议每天对每个表进行分区。我认为在我将创建以每天插入一百行的新表上执行此操作并不好。我想按年份对数据进行分区,这样好吗?要获得最佳性能,需要按分区多少行?
解决方案
请记住,分区的数量是有限的(最多 4000 个)。因此,分区非常适合低基数。每天,是完美的(大约 11 年 -> 4000 天)。
如果您有更高的基数,例如客户 ID(我希望您有 4000 多个客户!),集群是加快请求速度的解决方案。
当您对数据进行分区和集群时,您会创建一个小包。您拥有的要处理的数据(加载、读取、存储在缓存中(...))越少,您的查询就越快!当然,只有 100 行,您不会看到任何差异
推荐阅读
- powerbi - DAX:如何计算一段时间内有多少个月的销售额
- r - 在R中阅读PDF后删除标签
- django - Django - 内联表单集保存多行
- google-forms - 根据输入的序列号自动填充 Google 表单字段
- elasticsearch - 根据 Logstash 中的字段插入不同的索引
- django - django form.errors 显示“此字段是必需的!” 使用 form.isvalid 运行 modelform 验证后
- android - Gradle:在 Kotlin DSL 中使用 ext 函数
- php - PHP:推断此方法链的返回类型
- unit-testing - 在函数文字(scopelint)中使用范围范围`x`上的变量
- firefox - Jmeter 证书在大多数站点中不起作用