首页 > 解决方案 > 过滤掉不必要的词(即没有内涵的词)

问题描述

所以我正在做一个项目,我必须处理大量的亚马逊评论。我将如何将每条评论缩短为仅几个基本词?就像只有带有强烈含义的正面和负面的词。谢谢!

标签: c++nlp

解决方案


在 nlp 中,这通常称为情绪分析。首先,由于模棱两可,寻找积极或非积极的词可能具有挑战性。在亚马逊评论中,您也有评级 - 这意味着您的数据已被标记(因此 1 星评级表示评论是负面的,而 5 星评级是正面评论)。

我建议,不要寻找与情绪正相关的词,而是删除不影响情绪的词。即清理数据。在 nlp 中,最常见的方法是词干提取和停用词删除。完成这两个之后,您将消除大部分噪音。此外,您将从数据中提取特征中受益,一个常见的特征称为 tf-idf。


推荐阅读