首页 > 解决方案 > 在python中对多个多词短语进行分类的NLP策略

问题描述

我需要一些帮助来选择用于分类日记帐条目的 NLP 策略。这是一个日记条目可能看起来像什么以及正确分类是什么的示例。

“昨天,我睡得很糟糕。我觉得很累,所以我一天的工作效率不是很好。”

分类:“睡眠:糟糕”和“生产力:不是很好”

我有大量的个人日记。人们将谈论他们已经做过(或试图做)的事情以及结果如何(“好”、“坏”)。每个条目将有多次尝试和评分,我需要正确匹配它们。

现在,我可以采取的一种方法是在 Python 中使用 Spacy 的匹配器并提出一个多词属性列表,例如

# Initialize the Matcher with the shared vocabulary
matcher = Matcher(nlp.vocab)

# Create a pattern matching two tokens: "iPhone" and "X"
pattern = [{'TEXT': 'not'}, {'TEXT': 'very'}, {'TEXT': 'good'}]

但是,问题是,即使我想出了一个新的评级和元素字典,我如何在上下文中匹配它们,比如正确的属性/形容词/评级与正确的元素(如生产力或睡眠)。

我确信有一种更有效的方法可以做到这一点,但我不太确定。任何帮助都会很棒,如果我可以让这个问题变得更好,请告诉我。

标签: pythonmachine-learningnlp

解决方案


我会发表评论,但我的声誉太低了,但这是 NLP 的一个非常有趣的应用。如果您的期刊已经有类别,我会考虑使用 ML 方法。我最喜欢的文本分类工具是 fasttext ( https://fasttext.cc/docs/en/supervised-tutorial.html )

无论如何,祝你好运!


推荐阅读