c++ - 过滤掉不必要的词(即没有内涵的词)
问题描述
所以我正在做一个项目,我必须处理大量的亚马逊评论。我将如何将每条评论缩短为仅几个基本词?就像只有带有强烈含义的正面和负面的词。谢谢!
解决方案
在 nlp 中,这通常称为情绪分析。首先,由于模棱两可,寻找积极或非积极的词可能具有挑战性。在亚马逊评论中,您也有评级 - 这意味着您的数据已被标记(因此 1 星评级表示评论是负面的,而 5 星评级是正面评论)。
我建议,不要寻找与情绪正相关的词,而是删除不影响情绪的词。即清理数据。在 nlp 中,最常见的方法是词干提取和停用词删除。完成这两个之后,您将消除大部分噪音。此外,您将从数据中提取特征中受益,一个常见的特征称为 tf-idf。
推荐阅读
- python - 如何将 python 文件集成到 Django 项目中?
- pandas - 合并熊猫数据框中的列表
- angular - 角度 10 中引导选项卡面板中的逻辑问题
- amazon-web-services - Amazon SES 信誉跳出率重置期
- typescript - 键入一个接受对象及其属性名称的通用函数,期望 obj[propName] 是某种类型,例如 sumBy、mapBy
- javascript - 没有 pg_hba.conf,只是不会工作。我已经找到并尝试更改了很多次
- algorithm - 买卖股票的最佳时机 IV
- formatting - Splunk 仪表板格式问题
- python - 使用 PyTest,run_until_complete 确实会继续但未完成
- javascript - 如何返回 JSON 响应的特定部分?