首页 > 解决方案 > 如何计算每年在我的python数据集中出现多少次

问题描述

想知道是否有人可以帮助我。

我有一个包含“created_at”列的数据集,其中包含这样的行

data = pd.read_csv("dataset.csv")
col = data["created_at"]
print(col.head())
print(col.tail())

0    2014-06-01 21:03:16
1    2014-06-01 09:06:48
2    2014-06-01 00:31:52
3    2014-06-04 10:04:47
4    2014-06-04 10:05:40
Name: created_at, dtype: object
380064    2019-05-31 23:49:39
380065    2019-05-31 23:52:34
380066    2019-05-31 23:27:28
380067    2019-05-31 14:01:31
380068    2019-05-31 12:30:33
Name: created_at, dtype: object

我试图计算每年出现多少次,所以 2014 年和 2015 年出现了多少次等等。

我已经尝试过计数器和 for 循环,但我似乎无法让它工作。如果有人可以提供帮助,将不胜感激

标签: pythonpython-3.xpandas

解决方案


首先将您的列转换为datetime类型,因为我看到它是object类型:

data['created_at'] = pd.to_datetime(data['created_at'])

现在使用以下方法提取year部分dt

data['year'] = data['created_at'].dt.year

最后,使用以下方法进行计数value_counts

data.year.value_counts()

样本输出:

data.year.value_counts()
Out[142]: 
2014    3
2015    2
Name: year, dtype: int64

推荐阅读