首页 > 解决方案 > bigquery trigrams 和 ngrams 查看器之间的百分位差异?

问题描述

有人可以帮忙解释一下 bigquery trigrams 和 ngrams 查看器百分位值之间的差异(对于任何给定的 trigram 似乎都不同,但这里有一个具体的例子得到了帖子https://groups.google.com/forum/# 的证实!主题/bigquery-discuss/OT_W0ayVSvg)?

SELECT * FROM
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams] 
WHERE ngram = "of these dinosaurs" AND cell.value = "1888"),
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams] 
WHERE ngram = "of these dinosaurs" AND cell.value = "1890")

https://bigquery.cloud.google.com/savedquery/977440528149:1539bcaba54144d3bd9920c55ede72b9

1890 1.6196954972465177E-4 1888 1.6196954972465177E-4

https://books.google.com/ngrams/graph?content=of+these+dinosaurs&year_start=1888&year_end=1890&corpus=15&smoothing=0&share=&direct_url=t1%3B%2Cof%20these%20dinosaurs%3B%2Cc0

1890 0.0000001270% 1888 0.0000001256%

标签: google-bigquery

解决方案


之所以解释这种差异,是因为您使用的是两个不同的数据集。BigQuery trigrams 从包含某些书籍的示例数据集中读取数据,这些数据可能已被修改以用于测试目的。官方描述是:

包含来自 1520 年至 2008 年间出版的作品样本的英语三元组。

Google Books 现在基于Partner Program和不断更新Library Project,您可以在此处看到。

因此,您将静态演示 258GB 数据集中的查询与 Google 图书平台进行比较。


推荐阅读