首页 > 技术文章 > 使用tf-idf提取关键词并生成词云。

liuguangshou123 2020-07-18 09:45 原文

关键词提取

关键词的定义:仁者见仁,智者见智的问题。

一:词频统计

通过统计文章中反复出现的词语。

词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn))

缺点:高频词并不等价于关键词。

二:使用TF-IDF(词频-倒排文档频次)

在TF-IDF算法中,词的重要程度不光正比于他在文档中的频次,还反比于有多少文档包含他。

t代表单词,d代表文档,TF(t,d)代表t在d中的出现频次,DF(t)代表多少篇文档包含t。

三:实战测试

数据来源:10000条用户关于套餐内容的投诉信息。包括时间、地址、账号、订单号、英文类型等无关内容。

需求:提取前关键词,生成词云图。

实战结果:

IO次数过高。程序运行直接暂停了

 

解决方案为:

https://www.jianshu.com/p/352d1cdff534

 使用了sklearn的TfidfVectorizer算法包,但是想根据tfidf值作为词频生成词云图,但生成的是空白页面。

最终结果:

推荐阅读