google-cloud-platform - BigQueryML - 分组数据?
问题描述
我有一个大型赛马数据库,我正在尝试为其创建模型。目前我正在基于整个数据库训练模型 - 但是,在赛马中,我需要在比赛的背景下训练模型 - 使用历史比赛结果。
如何使用按种族分组的数据来训练模型?即,与该比赛中的其他马匹相比,我需要它来预测一匹马在比赛中的表现——而不是数据库中的所有其他马匹。
解决方案
该CREATE MODEL
函数支持标准 SQL,因此您可以在该 SQL 语句中执行任何您喜欢的操作(例如,在您的情况下按某些马匹或种族等进行过滤)。您提供的 SQL 语句使用查询的 SELECT 语句检索到的数据来训练模型。
例如(这是一个无意义的模型,但它显示了如何在CREATE MODEL
函数中使用您喜欢的任何 SQL):
#standardSQL
CREATE MODEL
`another_test.sample_model` OPTIONS(model_type='logistic_reg') AS
SELECT
SUM(views) AS label,
year,
month,
day,
wikimedia_project,
LANGUAGE
FROM
`bigquery-samples.wikipedia_benchmark.Wiki1M`
WHERE
title LIKE '%melbourne%'
GROUP BY
2,
3,
4,
5,
6
推荐阅读
- autodesk-forge - viewableID 和 guid 有什么区别?
- javascript - Javascript Regex 替换任何非字母数字字符,包括括号
- excel - 从表中应用多个数据透视表过滤器
- javascript - Mongodb mapreduce 加入2个集合
- javascript - 闪亮的自定义 selectInput/selectizeInput
- d3.js - d3 缩放取决于嵌套数据
- python - 从日期时间等历中获取冲突信息
- android - 如何在 AAR 中提供 compileOnly 依赖项?
- oracle - 什么时候应该在报告之前使用,什么时候应该在 oracle xml 发布者的报告之后使用?
- python - 规范化 Python 列表以将 JSON 数据放入表中