首页 > 解决方案 > 有没有办法应用在句子级数据上训练的 sklearn 模型来对更长的文档进行预测?

问题描述

我试图弄清楚我是否可以对注释数据进行训练以进行情感分析,其中每个数据点都是一个句子,然后在更大的数据上使用这些模型。当我尝试时出现以下错误:尝试决策树模型时出错:

ValueError: Number of features of the model must match the input. Model n_features is 30 and input n_features is 75000 

这个来自尝试 SVM:

ValueError: X.shape[1] = 75000 should be equal to 30, the number of features at training time

注意:30 是用于训练的所有标记化句子的长度,75000 是我试图进行预测的较大文档的长度。

这是进行预测的代码,以防万一,虽然这是非常标准的,所以我觉得这并不意味着什么。我也可以粘贴培训代码,但我再次认为这与我的问题无关:

y_test_pred_10k = model_dt.predict()X_test10k
svm_predictions_test_10k = SVM.predict(X_test10k)

我不确定除了将句子填充为 75000 长度之外,还有哪些选项可以使这项工作有效,但这似乎不是一个好主意。还有其他选择吗?

标签: pythonscikit-learnsklearn-pandas

解决方案


推荐阅读