首页 > 解决方案 > 训练和验证数据集的拆分

问题描述

我需要将我的训练数据 (80-20) 拆分为验证数据,使拆分的子数据集不是随机的,但始终相同。

目前我使用这个代码

from sklearn.model_selection import train_test_split
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size=0.2)

但是拆分的子数据集始终是随机的,并且永远不会相同。我希望它是随机的,但是当我再次运行代码时应该存在相同的值(类似于 np.random.seed)

有没有办法做到这一点?

标签: pythondataset

解决方案


train_test_split()random_state论据。如果您为其分配一个整数值,则结果将始终相同:

from sklearn.model_selection import train_test_split
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size=0.2, random_state=1)

推荐阅读