python - 如何计算每年在我的python数据集中出现多少次
问题描述
想知道是否有人可以帮助我。
我有一个包含“created_at”列的数据集,其中包含这样的行
data = pd.read_csv("dataset.csv")
col = data["created_at"]
print(col.head())
print(col.tail())
0 2014-06-01 21:03:16
1 2014-06-01 09:06:48
2 2014-06-01 00:31:52
3 2014-06-04 10:04:47
4 2014-06-04 10:05:40
Name: created_at, dtype: object
380064 2019-05-31 23:49:39
380065 2019-05-31 23:52:34
380066 2019-05-31 23:27:28
380067 2019-05-31 14:01:31
380068 2019-05-31 12:30:33
Name: created_at, dtype: object
我试图计算每年出现多少次,所以 2014 年和 2015 年出现了多少次等等。
我已经尝试过计数器和 for 循环,但我似乎无法让它工作。如果有人可以提供帮助,将不胜感激
解决方案
首先将您的列转换为datetime
类型,因为我看到它是object
类型:
data['created_at'] = pd.to_datetime(data['created_at'])
现在使用以下方法提取year
部分dt
:
data['year'] = data['created_at'].dt.year
最后,使用以下方法进行计数value_counts
:
data.year.value_counts()
样本输出:
data.year.value_counts()
Out[142]:
2014 3
2015 2
Name: year, dtype: int64
推荐阅读
- facebook - 按见解过滤 Facebook 活动
- python - Tkinter TypeError:“StringVar”类型的参数不可迭代
- sql - DEFAULT is not allowed in this context 错误
- python - 烧瓶服务无法通过 docker-compose 与 postgres 通信
- azure - 成员未加入 JGroups 集群以用于 Azure 上的 ActiveMQ Artemis
- woocommerce - 在重定向到 Woocommerce 中的支付网关页面之前打开弹出消息
- angular - Kendo-angular-dropdown 升级导致错误
- javascript - 不确定我是否正确使用了 useFitTest 包
- c++ - 变化没有反映在参考文献中
- html - 在偏移内联元素时保持粘性