首页 > 解决方案 > ValueError:发现样本数量不一致的输入变量:[2, 44]

问题描述

有一段代码,我正在清理“描述”列中的文本并将其存储为“已清理”

然后我使用上述作为我的功能之一创建了一个 ML 模型。

X = data[['originalname','cleaned']]
Y = data['Total score']

X_train, X_test, y_train, y_test = train_test_split(X,Y, 
test_size=0.2,random_state=42)

pipeline = Pipeline(
    [('vect', TfidfVectorizer(ngram_range=(1, 2), 
    stop_words="english", sublinear_tf=True)),
    ('chi',  SelectKBest(chi2, k='all')),
    ('clf', LinearSVC(C=1.0, penalty='l1', max_iter=300, dual=False))])

X_train.shape--->(44, 2)

y_train.shape--->(44,)

尝试训练模型给了我上述错误

model = pipeline.fit(X_train, y_train)

如何使用“原始描述”和“清理”作为我的特征来预测“总分”而不会出现上述错误?

标签: machine-learningscikit-learndata-scienceprediction

解决方案


推荐阅读