首页 > 解决方案 > 使用 Pandas 数据框的频率计数

问题描述

我正在尝试计算 Pandas 数据框中的词频。但是,当我使用特定单词(例如,劳动)来查找其使用频率时,当我尝试查找整个数据集中最常见的单词时,我会得到不同的结果。

我的数据如下所示:

    text
0   good luck kicked first game hope get

我使用以下代码通过特定单词和单词列表查找最常用的单词:

要在数据集中查找单词 labout-

df.text.str.count("labour").sum()
741

在数据集中寻找 2 个最常见的词

import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
 ('today', 473)]

知道为什么我可能会为相同的单词得到不同的结果吗?

标签: pythonpandasword-frequency

解决方案


推荐阅读