首页 > 解决方案 > BigQueryML - 分组数据?

问题描述

我有一个大型赛马数据库,我正在尝试为其创建模型。目前我正在基于整个数据库训练模型 - 但是,在赛马中,我需要在比赛的背景下训练模型 - 使用历史比赛结果。

如何使用按种族分组的数据来训练模型?即,与该比赛中的其他马匹相比,我需要它来预测一匹马在比赛中的表现——而不是数据库中的所有其他马匹。

标签: google-cloud-platformgoogle-bigquery

解决方案


CREATE MODEL函数支持标准 SQL,因此您可以在该 SQL 语句中执行任何您喜欢的操作(例如,在您的情况下按某些马匹或种族等进行过滤)。您提供的 SQL 语句使用查询的 SELECT 语句检索到的数据来训练模型。

https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-create#query_statement

例如(这是一个无意义的模型,但它显示了如何在CREATE MODEL函数中使用您喜欢的任何 SQL):

#standardSQL
CREATE MODEL
  `another_test.sample_model` OPTIONS(model_type='logistic_reg') AS
SELECT
  SUM(views) AS label,
  year,
  month,
  day,
  wikimedia_project,
  LANGUAGE
FROM
  `bigquery-samples.wikipedia_benchmark.Wiki1M`
WHERE
  title LIKE '%melbourne%'
GROUP BY
  2,
  3,
  4,
  5,
  6

推荐阅读