python - 按小时将日期时间对象排序到 Pandas 数据框,然后使用 Matplotlib 可视化为直方图
问题描述
我需要按小时将观众排序为直方图。我有一些使用 Matplotlib 来做到这一点的经验,但我不知道按小时对日期进行排序的最实用的方法是什么。
首先,我从 JSON 文件中读取数据,然后将两个相关数据类型存储在 pandas Dataframe 中,如下所示:
data = pd.read_json('data/data.json')
session_duration = pd.to_datetime(data.session_duration, unit='s').dt.time
time = pd.to_datetime(data.time, format='%H:%M:%S').dt.time
viewers = []
for x, y in zip(time, session_duration):
viewers.append({str(x):str(y)})
编辑:源文件看起来像这样,省略了不相关的部分。
{
"time": "00:00:09",
"session_duration": 91
},
{
"time": "00:00:16",
"session_duration": 29
},
{
"time": "00:00:33",
"session_duration": 102
},
{
"time": "00:00:35",
"session_duration": 203
}
请注意 session_duration 以秒为单位。
我必须区分两种类型的观众:
- 那些在直播上花费 <= 1 分钟的人
- 那些在直播上花费 >= 1 分钟的人
为此,我这样做:
import datetime
for element in viewers:
for time, session_duration in element.items():
if datetime.strptime(session_duration, '%H:%M:%S').time() >= datetime.strptime('00:01:00', '%H:%M:%S').time():
viewers_more_than_1min.append(element)
else:
viewers_less_than_1min.append(element)
结果,我的值在字典中,如下所示: {session_duration:time} 其中键是会话结束流的时间,值是观看时间。
[{'00:00:09': '00:01:31'},
{'00:00:16': '00:00:29'},
{'00:00:33': '00:01:42'},
{'00:00:35': '00:03:23'},
{'00:00:36': '00:00:32'},
{'00:00:37': '00:04:47'},
{'00:00:47': '00:00:42'},
{'00:00:53': '00:00:44'},
{'00:00:56': '00:00:28'},
{'00:00:58': '00:01:17'},
{'00:01:04': '00:01:16'},
{'00:01:09': '00:00:46'},
{'00:01:29': '00:01:07'},
{'00:01:31': '00:01:02'},
{'00:01:32': '00:01:01'},
{'00:01:32': '00:00:36'},
{'00:01:37': '00:03:03'},
{'00:01:49': '00:00:57'},
{'00:02:01': '00:02:15'},
{'00:02:18': '00:01:16'}]
作为最后一步,我希望使用 Matplotlib 创建一个直方图,表示每小时从上面提到的两种查看器类型中每个我们的查看器计数。我认为它会是这样的:
import matplotlib.pyplot as plt
import datetime as dt
hours = [(dt.time(i).strftime('%H:00')) for i in range(24)]
plt.xlabel('Hour')
plt.ylabel('Viewer count')
plt.bar(hours, sorted_viewcount_byhour)
解决方案
df = pd.read_json('data/data.json')
df['time'] = pd.to_datetime(df['time'])
#timedelta is a more appropriate data type for session_duration
df['session_duration'] = pd.to_timedelta(df['session_duration'], unit='s')
# Example filtering
df_short_duration = df[df['session_duration'].dt.total_seconds() <= 60]
# Example creating histogram
df_hist = df_short_duration.groupby(df['time'].dt.hour).count()
# Now just plot df_hist as a bar chart using matplotlib, might be something like plt.bar(df_hist.index, df_hist['count'])
推荐阅读
- python - 如何在 django 中添加“按用户名或电子邮件地址搜索”字段忘记密码
- mysql - 如何通过分组计算值的百分比
- javascript - 添加具有特定属性的新节点时获得通知的最有效方法是什么?
- python - Python matplotlib 代码,我不明白代码是做什么的
- java - java使用compuateifpresent计算哈希图不起作用
- mongodb - 您可以参考同一架构中的另一个字段来验证 mongodb 字段吗?
- python-3.x - pd.min() 函数不读取负值
- xcode - 如何使按钮在 alertController 中可见?
- asp.net-mvc - 为什么全球化日期格式在 Azure 中不起作用?
- excel - 有没有一种方法可以组合重复单元格是一列,然后添加它们相邻列的值