首页 > 解决方案 > 发现样本数量不一致的输入变量:[799996, 199999]

问题描述

我正在拆分一个 df 那么为什么它在 X_train、X_test 中给出不一致的样本(如果这是错误的意思)?

X_train, X_test = train_test_split(df[categorical_cols+ numeric_cols], test_size=0.2, random_state=4)
regression = LinearRegression().fit(X_train, X_test)
regression.score(X)

标签: python-3.xlinear-regressiontrain-test-split

解决方案


在您的示例中,该方法将执行大致相当于以下内容的操作:

  1. 为每条记录生成一个 0 到 1 之间的随机数

  2. 将随机数低于 0.2 的记录放入测试集中

  3. 将其余部分放入训练集中

实际放入训练/测试集中的数量存在一定的随机性,因为 0.2 以下的随机数并不总是正好是 20%。


推荐阅读