首页 > 解决方案 > sklearn train_test_split 坏了

问题描述

我的数据具有形状 ‍<code>(345438, 5),我所做的就是读取数据,然后用 sklearn 将其拆分train_test_split。我已经做了很多次了,这是我第一次看到这个问题。

这是我的代码:

X_train,X_test,y_train,y_test = train_test_split(data[['review','clean_nltk','clean_spacy','clean_sklearn']],data.recommendation,test_size=0.3, stratify=data.recommendation,random_state=100)
print(X_train.shape)
print(X_test.shape)

输出:

(5572, 4)
(335336, 4)

当我将test_size参数更改为 0.5 时,它给出:

输出:

(11086, 4)
(5727, 4)

我遇到的问题是:

  1. train_test_split不是按请求的比例拆分数据。
  2. 拆分时甚至不保存整个数据集。我的朋友正在使用完全相同的代码,他能够对数据进行正确的拆分,我们使用的是相同的random_state所有内容。

这里出了什么问题?

标签: pythonscikit-learn

解决方案


推荐阅读