python-3.x - 发现样本数量不一致的输入变量:[799996, 199999]
问题描述
我正在拆分一个 df 那么为什么它在 X_train、X_test 中给出不一致的样本(如果这是错误的意思)?
X_train, X_test = train_test_split(df[categorical_cols+ numeric_cols], test_size=0.2, random_state=4)
regression = LinearRegression().fit(X_train, X_test)
regression.score(X)
解决方案
在您的示例中,该方法将执行大致相当于以下内容的操作:
为每条记录生成一个 0 到 1 之间的随机数
将随机数低于 0.2 的记录放入测试集中
将其余部分放入训练集中
实际放入训练/测试集中的数量存在一定的随机性,因为 0.2 以下的随机数并不总是正好是 20%。
推荐阅读
- javascript - 如何在服务器中运行或安装不带 node.js 的 discord.js(部署)
- flutter - 如何根据深色/浅色主题设置颜色?
- r - 正交非线性回归
- python - PYTHON Dataframe:如何用今天和昨天的值差异制作一个新的数据框?
- node.js - Firebase 函数执行耗时 2794 毫秒,以 status: 'ok' 完成,...但 Firestore 中没有发生任何变化
- c - 函数(指针)作为参数
- python - python列表同时称为真假
- reactjs - ReactJs:关于 node-sass 的 npm errr
- python - python sdk 错误 python 3.10 on py charm for m1
- mongodb - 如何删除 mongdb 中的多个 id,但每个 1 id 只能删除 1 个文档?