首页 > 解决方案 > 包含情绪的 GloVe 词嵌入?

问题描述

我一直在研究带有词嵌入的情感分析。我读过一些论文,其中指出词嵌入忽略了文本中单词的情感信息。一篇论文指出,在语义相似的前 10 个词中,大约 30% 的词具有相反的极性,例如快乐 - 悲伤。

因此,我使用 R 中的 GloVe 算法在我的数据集(亚马逊评论)上计算了词嵌入。然后,我查看了余弦相似度最相似的词,我发现实际上每个词在情感上都是相似的。(例如美丽 - 可爱 - 华丽 - 漂亮 - 好 - 爱)。因此,我想知道这是怎么可能的,因为我从阅读几篇论文中预料到了相反的结果。我的发现可能是什么原因?

我读过的许多论文中的两篇:

标签: rstanford-nlpsentiment-analysiswordembedding

解决方案


几个假设:当你说你计算了 GLoVe 嵌入时,你的意思是你使用了预训练的 GLoVe。当您说您查看了具有余弦相似度的最相似的单词时,您的意思是说与某个单词最相似的单词/ wrt some word

Word Embeddings 忽略文本的情感信息

上述陈述意味着词嵌入算法(据我所知,其中大部分)不是为捕捉词的情感而设计或制定的。但是,一般来说,词嵌入算法将意义相似的词(基于统计上的接近度和共现)映射到彼此附近。例如,“Woman”和“Girl”将在嵌入的 n 维空间中彼此靠近。但这并不意味着这里会捕获任何与情绪相关的信息。

因此,单词:(美丽 - 可爱 - 华丽 - 漂亮 - 好 - 爱),在情感上与某个词相似并不奇怪。另外,请研究相似度分数,这样会更清楚。

语义相似的前 10 个词,大约 30% 的词具有相反的极性

在这里,语义性与上下文的相关性较小,而情感与上下文的相关性更高。一个词不能定义情绪。

例子:

杰克:“你的裙子很漂亮,格洛丽亚”!格洛丽亚:“漂亮我的脚!”

在这两个句子中,beautiful 都带有完全不同的情感,而对于它们来说,它们将具有相同的嵌入。现在,用(可爱 - 华丽 - 漂亮 - 漂亮)替换美丽,语义事物如其中一篇论文所述是正确的。此外,Word Embeddings 没有捕捉到情绪,因此,其他论文也是如此。

可能发生混淆的地方是认为两个或多个具有相似含义的单词在情感上相似。情感信息可以在句子级别或文档级别而不是在单词级别收集。


推荐阅读