machine-learning - ValueError:发现样本数量不一致的输入变量:[2, 44]
问题描述
有一段代码,我正在清理“描述”列中的文本并将其存储为“已清理”
然后我使用上述作为我的功能之一创建了一个 ML 模型。
X = data[['originalname','cleaned']]
Y = data['Total score']
X_train, X_test, y_train, y_test = train_test_split(X,Y,
test_size=0.2,random_state=42)
pipeline = Pipeline(
[('vect', TfidfVectorizer(ngram_range=(1, 2),
stop_words="english", sublinear_tf=True)),
('chi', SelectKBest(chi2, k='all')),
('clf', LinearSVC(C=1.0, penalty='l1', max_iter=300, dual=False))])
X_train.shape--->(44, 2)
y_train.shape--->(44,)
尝试训练模型给了我上述错误
model = pipeline.fit(X_train, y_train)
如何使用“原始描述”和“清理”作为我的特征来预测“总分”而不会出现上述错误?
解决方案
推荐阅读
- react-native - 从 BottomTabBar 中获取 SafeAreaView 的高度
- node.js - TypeError:无法在反应中读取 null 的属性“名称”
- javascript - 如何使用上一个和下一个按钮遍历锚链接?
- python - 似乎无法从 celery 任务中修改缓存值
- python - random.choice 中的奇怪行为
- c# - CheckListBox 为每个
- batch-file - 如何删除带有批处理文件的文件夹?
- javascript - 使用Primeng上传组件上传文件
- ms-access - MS Access - 使用下拉列表复制粘贴表时出现问题
- linux - 如何使用版本 5 创建 ubifs?