首页 > 解决方案 > python中金融文本的词干提取与词形还原[NLTK]

问题描述

为了从年度报告(10ks)中提取更多信息,我试图根据余弦相似度比较公司。这项研究的步骤之一是词干化或词形还原。这样做的原因是为了得到词的根源,这样当你没有不同的变体词时,它们的核心意思是相同的。对于词干分析器和词形还原器,我使用了 NLTK 包中的 SnowBall 词干分析器和 WordNetLemmatizer。

例如词干:; 例如,词形还原 walking -> walk walking-> walking walked -> walk walked -> walked or owing -> owe owing -> owing owed -> owe owed -> owed
问题如下:我应该使用词干分析器还是财务文本词形还原器?

在我看来,词干分析器更适合这种研究。

免责声明:我知道在 stackoverflow 上已经有一个讨论词干化与词形还原的问题。但是,我正在寻找有关财务文本的一些澄清,特别是不作为一般情况。

标签: pythonnltktext-analysisstemminglemmatization

解决方案


推荐阅读