python - Pandas 中的唯一单词及其计数
问题描述
我刚开始学习 pandas,我想知道您是否可以将文本放入数据框中以获得结果。我有大约 3000 个单词的文本信息,其中一些单词重复了很多次,“太阳”“月亮”“地球”。我想生成一个图表,显示从最频繁到最少出现的单词数量。我应该专注于学习熊猫的哪些方面来完成这项任务,熊猫是不是最好的选择?
解决方案
同意 Max 的评论,即您的问题过于宽泛。但是,您要做的是tokenizing
文本并计算每个标记的频率。这可以类似于这个问题来完成。这是一种实现:
import nltk
with open ("input.txt", "r") as myfile:
data=myfile.read().replace('\n', ' ')
data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)
推荐阅读
- javascript - 如何使选择器组件正确地重新渲染其项目?
- css - 我的自定义类在与“btn”等预定义类一起使用时不起作用
- python - 对象在 Django 中不可下标
- sql - 与 concatenate 一起使用时,max() 是否仍然提供最新记录?
- c++ - 标准字符串 rfind 未找到期间
- php - 大量数据时PHP脚本内部服务器错误
- php - Voyager:“@php artisan package:discover --ansi 处理返回的 post-autoload-dump 事件,错误代码为 1”
- html - css 文件不会加载到我的 html 网页中
- python - 修改 soft-max 函数以在列表中的最小值上给出最高概率的最佳方法是什么?
- vb.net - VB.NET:搜索列表视图并删除不匹配的项目