r - 包含情绪的 GloVe 词嵌入?
问题描述
我一直在研究带有词嵌入的情感分析。我读过一些论文,其中指出词嵌入忽略了文本中单词的情感信息。一篇论文指出,在语义相似的前 10 个词中,大约 30% 的词具有相反的极性,例如快乐 - 悲伤。
因此,我使用 R 中的 GloVe 算法在我的数据集(亚马逊评论)上计算了词嵌入。然后,我查看了余弦相似度最相似的词,我发现实际上每个词在情感上都是相似的。(例如美丽 - 可爱 - 华丽 - 漂亮 - 好 - 爱)。因此,我想知道这是怎么可能的,因为我从阅读几篇论文中预料到了相反的结果。我的发现可能是什么原因?
我读过的许多论文中的两篇:
- Yu, LC, Wang, J., Lai, KR & Zhang, X. (2017)。使用强度分数优化词嵌入以进行情感分析。IEEE/ACM 音频、语音和语言处理交易,26(3), 671-681。
- Tang, D., Wei, F., Yang, N., Zhou, M., Liu, T. & Qin, B. (2014)。学习用于 Twitter 情感分类的情感特定词嵌入。计算语言学协会第 52 届年会论文集,1:长论文,1555-1565。
解决方案
几个假设:当你说你计算了 GLoVe 嵌入时,你的意思是你使用了预训练的 GLoVe。当您说您查看了具有余弦相似度的最相似的单词时,您的意思是说与某个单词最相似的单词/ wrt some word
Word Embeddings 忽略文本的情感信息
上述陈述意味着词嵌入算法(据我所知,其中大部分)不是为捕捉词的情感而设计或制定的。但是,一般来说,词嵌入算法将意义相似的词(基于统计上的接近度和共现)映射到彼此附近。例如,“Woman”和“Girl”将在嵌入的 n 维空间中彼此靠近。但这并不意味着这里会捕获任何与情绪相关的信息。
因此,单词:(美丽 - 可爱 - 华丽 - 漂亮 - 好 - 爱),在情感上与某个词相似并不奇怪。另外,请研究相似度分数,这样会更清楚。
语义相似的前 10 个词,大约 30% 的词具有相反的极性
在这里,语义性与上下文的相关性较小,而情感与上下文的相关性更高。一个词不能定义情绪。
例子:
杰克:“你的裙子很漂亮,格洛丽亚”!格洛丽亚:“漂亮我的脚!”
在这两个句子中,beautiful 都带有完全不同的情感,而对于它们来说,它们将具有相同的嵌入。现在,用(可爱 - 华丽 - 漂亮 - 漂亮)替换美丽,语义事物如其中一篇论文所述是正确的。此外,Word Embeddings 没有捕捉到情绪,因此,其他论文也是如此。
可能发生混淆的地方是认为两个或多个具有相似含义的单词在情感上相似。情感信息可以在句子级别或文档级别而不是在单词级别收集。
推荐阅读
- python - KivyMD 应用程序中某些小部件的位置问题
- python-3.x - 打开 .pkl 文件或将 .pkl 文件转换为 csv 文件,无需重新编写整个代码
- dafny - dafny 函数可以以与方法相同的方式返回两个东西吗?
- javascript - 如何遍历嵌套对象以使用 vanilla JavaScript 查找价值?
- python -
我有一个来自一家小型企业的 CSV 文件,该文件代表了他们在大约 30 年内分布的大约 70,000 个订单的记录。我的目标是将此数据存储在模型设置
- ruby-on-rails - WSL 上的 Rails 设置:db:create 导致“无法连接到服务器错误”
- python - 为什么打印不打印我的数组排序
- css - 如何修复 CSS 背景图像?
- sql - SQLite 中的多个子查询条件或循环
- php - mysqli_multi_query - 将结果分成列