machine-learning - 当对新的样本外数据调用 .score 或 .predict 时,“tpot”模型对象是否会自动应用任何缩放或其他转换?
问题描述
以下是在 TPOT 中训练模型的基本代码:
from tpot import TPOTClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target,
train_size=0.75, test_size=0.25, random_state=42)
tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
最后,它在测试集上对数据进行评分,而没有明确地进行在训练集上进行的转换。这里有几个问题。
- 当对新的样本外数据调用 .score 或 .predict 时,“tpot”模型对象是否会自动应用任何缩放或其他转换?
- 如果没有,在调用 .score .predict 之前对测试集执行转换的正确方法是什么。
如果我完全误解了这一点,请教育。谢谢你。
解决方案
当对新的样本外数据调用 .score 或 .predict 时,“tpot”模型对象是否会自动应用任何缩放或其他转换?
这取决于 TPOT 选择的最终管道。但是,如果 TPOT 选择的最终管道具有任何类型的数据缩放或转换,那么它也会在predict
andscore
函数中正确应用这些缩放和转换操作。
这样做的原因是,在幕后,TPOT 正在优化scikit-learn 管道对象。
也就是说,如果您希望保证数据发生特定的转换,那么您有几个选择:
您可以将数据拆分为训练和测试,
StandardScaler
在训练集上学习转换(例如 ),然后将其应用到您的测试集。在将数据传递给 TPOT 之前,您将完成这两项操作。您可以使用TPOT 的模板功能,它允许您指定分析管道应该是什么样子的约束。
推荐阅读
- php - 保存文本文件超过 8kb(80 行) fwrite php
- android - Exoplayer - 多次调用 seekTo 时显示预览
- c++ - 在 C++ 中,是否可以将 CRTP 与私有基础一起使用?
- spring - 如何加密整个文件?
- git - 如何使用 .gitignore 反向选择
- algorithm - 在 Scala 中实现成对线性距离
- select - Azure SQL 数据库新创建的具有 dbo 架构的用户,但无法搜索 dbo 架构下的表
- python - 如何使用 Websocket 向服务器发送消息
- java - 在 Eclipse 中设置 EJB 构建类路径
- mysql - 如何使用join和left join mysql