python - 有没有办法应用在句子级数据上训练的 sklearn 模型来对更长的文档进行预测?
问题描述
我试图弄清楚我是否可以对注释数据进行训练以进行情感分析,其中每个数据点都是一个句子,然后在更大的数据上使用这些模型。当我尝试时出现以下错误:尝试决策树模型时出错:
ValueError: Number of features of the model must match the input. Model n_features is 30 and input n_features is 75000
这个来自尝试 SVM:
ValueError: X.shape[1] = 75000 should be equal to 30, the number of features at training time
注意:30 是用于训练的所有标记化句子的长度,75000 是我试图进行预测的较大文档的长度。
这是进行预测的代码,以防万一,虽然这是非常标准的,所以我觉得这并不意味着什么。我也可以粘贴培训代码,但我再次认为这与我的问题无关:
y_test_pred_10k = model_dt.predict()X_test10k
svm_predictions_test_10k = SVM.predict(X_test10k)
我不确定除了将句子填充为 75000 长度之外,还有哪些选项可以使这项工作有效,但这似乎不是一个好主意。还有其他选择吗?
解决方案
推荐阅读
- regex - 匹配字符串但匹配一次后不重复
- shell - 将“执行”函数的返回值保存到变量 vimscript
- javascript - 如何在表单加载时在文本框中设置值?
- r - 在闪亮服务器中使用 system() 运行系统命令
- python - 如何在 pybind11 中使用 Eigen::Ref?
- c - C,架构 x86_64 的未定义符号
- python - 将字符串转换为二进制时出现 Python 错误
- python - 是否可以使用 CNN 对同一对象的图像块进行分类,但区域不同?
- ruby-on-rails - 验证不在同一个表上的列组合
- c# - 处理大量类:我可以在文件夹中任意嵌套 C# 文件吗?