首页 > 解决方案 > 应用 GloVe 嵌入后如何创建词袋特征向量?

问题描述

如果我有两条影评:

"this was a really good movie" and "i did not like this movie at all"

我对它们应用 GloVe 嵌入,我将得到两个向量,其中包含多个单词向量,如下所示:

1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]] 
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]

基本上,评论中的每个单词都会被转换成一个 300 元素的浮点数数组。由于数组的长度可变,我不能将它们插入分类器。

我想过做某种词袋表示,但我不确定既然单词已经变成了数字,我将如何实现它。

标签: machine-learningnlpsentiment-analysislibsvmglove

解决方案


仅当您将单词作为离散单元使用时,词袋表示才有意义。如果您想使用 SVM 而没有神经网络,您可以使用嵌入来进行均值池化或最大池化(即,仅在句子长度上取平均值或最大值)。

在神经网络中,嵌入是使用 CNN 或 RNN 处理的,它们基本上保留重要信息并丢弃其余信息。由于您在 SVM 模型中没有类似的东西,因此合理的做法是删除停用词。


推荐阅读