python - 使用 Pandas 数据框的频率计数
问题描述
我正在尝试计算 Pandas 数据框中的词频。但是,当我使用特定单词(例如,劳动)来查找其使用频率时,当我尝试查找整个数据集中最常见的单词时,我会得到不同的结果。
我的数据如下所示:
text
0 good luck kicked first game hope get
我使用以下代码通过特定单词和单词列表查找最常用的单词:
要在数据集中查找单词 labout-
df.text.str.count("labour").sum()
741
在数据集中寻找 2 个最常见的词
import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
('today', 473)]
知道为什么我可能会为相同的单词得到不同的结果吗?
解决方案
推荐阅读
- python - Python 结合 FOR 循环和 IF 语句
- java - 检查拆分令牌是来自左侧还是右侧
- php - 循环有什么问题 - 超过 30 秒的最大执行时间?
- python - pandas:每隔一行取一次差异
- flutter - BoxDecoration 中的 FadeInImage
- nativescript - 如何创建此注册表单 - NativeScript GridView
- haskell - 一个事件同时发生多次
- delphi - 如何在 vsf 文件中包含 SpeedButton 字形(VCL 样式)
- xslt - 如何在 xsl 变量中编写两个选择语句?
- prestashop-1.7 - PrestaShop - 如何将变量添加到电子邮件模板