首页 > 解决方案 > Pandas 中的唯一单词及其计数

问题描述

我刚开始学习 pandas,我想知道您是否可以将文本放入数据框中以获得结果。我有大约 3000 个单词的文本信息,其中一些单词重复了很多次,“太阳”“月亮”“地球”。我想生成一个图表,显示从最频繁到最少出现的单词数量。我应该专注于学习熊猫的哪些方面来完成这项任务,熊猫是不是最好的选择?

标签: pythonpandasnltk

解决方案


同意 Max 的评论,即您的问题过于宽泛。但是,您要做的是tokenizing文本并计算每个标记的频率。这可以类似于这个问题来完成。这是一种实现:

import nltk

with open ("input.txt", "r") as myfile:
    data=myfile.read().replace('\n', ' ')

data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)

推荐阅读