pandas - 按小时分组时如何概括分类数据?
问题描述
我有一个如下所示的数据集。我有日期时间列作为索引,另一列有分类变量。type是一个分类变量。
start_time type
2019-12-14 09:37:05 R
2019-12-14 09:40:05 D
2019-12-14 10:06:25 C
2019-12-14 10:44:21 C
2019-12-14 10:50:21 R
2019-12-14 11:06:38 D
2019-12-14 11:29:04 R
2019-12-14 11:29:04 R
现在,我想每隔一小时重新采样一次数据。我希望重新采样的数据如下所示
start_time type
2019-12-14 09:00:00 R
2019-12-14 10:00:00 C
2019-12-14 11:00:00 D
我应该在这里实现什么逻辑来选择每小时应该是什么类型的值?一种方法是取一小时内重复值的最大次数。例如,在 10:00:00,如果C型出现 3 次,D 出现 1 次,R 出现 2 次。我可以将 C 分配给时间戳 10:00:00。
我还有什么其他方法可以处理这种情况?我的最终目标是预测接下来几个小时的类型序列,如果 RRCD 是前一个序列,那么接下来几个小时的下一个序列是什么?
谢谢
解决方案
您可以构建一个分类器来进行预测!您可以创建一个数据框 X,其列对应于 Day、Month、Year、Hour、DayOfWeek,并使用简单的东西(如随机福雷斯特)进行预测。
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X)
model.predict(DataYouWantToMakePredictionsOn)
推荐阅读
- neo4j - apoc refactor rename 给出过程不支持隐式命名错误
- oracle - 如何将 ORACLE DB 中大约 300 个表中的数据导出到 csv 或 txt 文件
- amazon-web-services - 由于当前正在验证帐户,AWS 资源创建失败
- javascript - 使用 webpack 排除未使用的语言环境 momentjs
- ruby - 字符串作为Ruby中的对象方法
- node.js - npx create-nuxt-app 返回意外的标识符
- ruby-on-rails - 如何在 Ruby 中将 GUID 转换为字节数组?
- hyperlink - 创建 HTML 链接,该链接在具有全新上下文的新选项卡/窗口中打开
- visual-studio - 在 SSAS 表格中查找数据源
- r - 用R删除字符串中的重复元素