python - 在python中对多个多词短语进行分类的NLP策略
问题描述
我需要一些帮助来选择用于分类日记帐条目的 NLP 策略。这是一个日记条目可能看起来像什么以及正确分类是什么的示例。
“昨天,我睡得很糟糕。我觉得很累,所以我一天的工作效率不是很好。”
分类:“睡眠:糟糕”和“生产力:不是很好”
我有大量的个人日记。人们将谈论他们已经做过(或试图做)的事情以及结果如何(“好”、“坏”)。每个条目将有多次尝试和评分,我需要正确匹配它们。
现在,我可以采取的一种方法是在 Python 中使用 Spacy 的匹配器并提出一个多词属性列表,例如
# Initialize the Matcher with the shared vocabulary
matcher = Matcher(nlp.vocab)
# Create a pattern matching two tokens: "iPhone" and "X"
pattern = [{'TEXT': 'not'}, {'TEXT': 'very'}, {'TEXT': 'good'}]
但是,问题是,即使我想出了一个新的评级和元素字典,我如何在上下文中匹配它们,比如正确的属性/形容词/评级与正确的元素(如生产力或睡眠)。
我确信有一种更有效的方法可以做到这一点,但我不太确定。任何帮助都会很棒,如果我可以让这个问题变得更好,请告诉我。
解决方案
我会发表评论,但我的声誉太低了,但这是 NLP 的一个非常有趣的应用。如果您的期刊已经有类别,我会考虑使用 ML 方法。我最喜欢的文本分类工具是 fasttext ( https://fasttext.cc/docs/en/supervised-tutorial.html )
无论如何,祝你好运!
推荐阅读
- angular - Angular 12 无法解析模板
- mysql - SQL中有没有办法按从低到高然后0排序?
- typescript - 有没有办法将系统日期与 Angular TypeScript 中的日期列进行比较
- python - 如何使用 splinter 查找没有名称的按钮
- python - 使用 python pandas 在同一个文件中导出多个工作表
- simulation - Anylogic:在汇编程序块中一次组装多个代理
- java - Android studio,pick图片表单文件,图片灰掉
- python - NumPy 中的多项式导数
- sql - 当我们可以直接使用表本身时,为什么拥有表的架构或所有者很重要
- next.js - 在 nextjs 中从“agora-rtc-sdk-ng”导入 AgoraRTC 时未定义窗口