machine-learning - 应用 GloVe 嵌入后如何创建词袋特征向量?
问题描述
如果我有两条影评:
"this was a really good movie" and "i did not like this movie at all"
我对它们应用 GloVe 嵌入,我将得到两个向量,其中包含多个单词向量,如下所示:
1st Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
2nd Review: [[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats],[300 Floats]]
基本上,评论中的每个单词都会被转换成一个 300 元素的浮点数数组。由于数组的长度可变,我不能将它们插入分类器。
我想过做某种词袋表示,但我不确定既然单词已经变成了数字,我将如何实现它。
解决方案
仅当您将单词作为离散单元使用时,词袋表示才有意义。如果您想使用 SVM 而没有神经网络,您可以使用嵌入来进行均值池化或最大池化(即,仅在句子长度上取平均值或最大值)。
在神经网络中,嵌入是使用 CNN 或 RNN 处理的,它们基本上保留重要信息并丢弃其余信息。由于您在 SVM 模型中没有类似的东西,因此合理的做法是删除停用词。
推荐阅读
- amazon-ses - 如何使用 SES “从”客户的电子邮件发送电子邮件
- go - 带有交互式提示的 golang 简单服务器
- postgresql - 如何将 Postgres CLI 中的转储数据库从远程服务器传输到远程服务器或本地计算机?
- flutter - 如何做流构建器以在颤动中从 bloc 获取数据
- javascript - 未按正确顺序调用 Javascript 函数,需要异步
- microsoft-edge - 我的边缘启动非常缓慢。如何解决?
- angular - 从 Typescript 中的动态字符串数组中获取值
- python-3.x - 如果python中不满足条件,如何转到函数的第一行?
- javascript - 如何为 Google 自定义搜索 API json 结果设置 HTML 元素的样式?
- javascript - 如何确保在调用函数之前履行承诺?