python - sklearn train_test_split 坏了
问题描述
我的数据具有形状 <code>(345438, 5),我所做的就是读取数据,然后用 sklearn 将其拆分train_test_split
。我已经做了很多次了,这是我第一次看到这个问题。
这是我的代码:
X_train,X_test,y_train,y_test = train_test_split(data[['review','clean_nltk','clean_spacy','clean_sklearn']],data.recommendation,test_size=0.3, stratify=data.recommendation,random_state=100)
print(X_train.shape)
print(X_test.shape)
输出:
(5572, 4)
(335336, 4)
当我将test_size
参数更改为 0.5 时,它给出:
输出:
(11086, 4)
(5727, 4)
我遇到的问题是:
train_test_split
不是按请求的比例拆分数据。- 拆分时甚至不保存整个数据集。我的朋友正在使用完全相同的代码,他能够对数据进行正确的拆分,我们使用的是相同的
random_state
所有内容。
这里出了什么问题?
解决方案
推荐阅读
- windows - 以识别 git 的方式将项目从 Windows 复制到 Ubuntu
- php - 将数据发布到 php api
- javascript - 如果使用打字稿映射不工作的数组中存在,则查找并替换该值
- mulesoft - RAML 中的默认查询参数整数 0 值
- c++ - std::shared_ptr 的线程安全
- python - 使用 Python 在 Selenium 中的反应选择下拉列表中选择项目
- python - 有条件地替换熊猫数据框中的值
- python - 如何从同一列中提取电子邮件和电话号码并使其成为两列
- sql - SQL - 具有少量数据点的线性回归的斜率、截距和误差
- python - azure 函数从自定义 util 函数返回 http 响应