首页 > 解决方案 > Python NLTK FreqDist - 列出频率大于 1000 的单词

问题描述

我正在尝试输出出现在我的标记中超过 1000 次(> 1000)的每个单词并将其保存到 freq1000。

freq1000 = []

newtokens = []

for words in tokens:
    newtokens += words
FreqDist(newtokens)

fd_1 = FreqDist(newtokens)

for i in set(fd_1):
    if fd_1.count(i) == >1000:
        print(i)

这是我当前的代码,在此之后我完全卡住了,我不确定是否有一个我可以用来提供帮助的 freqdist 函数。我已成功将 FreqDist 保存到 fd_1。我只是不确定如何获得出现超过 1000 次的单词的输出并将其保存到 freq1000。

我将不胜感激您能提供的任何帮助。

标签: pythonpandasnltk

解决方案


您可以使用以下方法根据频率计数过滤单词freqDist.items()

list(filter(lambda x: x[1]>=1000, fd_1.items()))

希望能帮助到你 :)


推荐阅读