python - 在具有不同日期范围的组中聚合 MongoDB 时间趋势数据的提示
问题描述
我有一个 MongoDB 集合,其中包含以下文档:
{'date': 2020-01-01T00:00:00.000+00:00, 'population': 110, 'state': 'NY', 'start': 2020-01-01T00:00:00.000+00:00, 'end': 2021-05-26T00:00:00.000+00:00},
{'date': 2020-01-02T00:00:00.000+00:00, 'population': 112, 'state': 'NY', 'start': 2020-01-01T00:00:00.000+00:00, 'end': 2021-05-26T00:00:00.000+00:00},
...
{'date': 2020-03-15T00:00:00.000+00:00, 'population': 119, 'state': 'NY', 'start': 2020-01-01T00:00:00.000+00:00, 'end': 2021-05-26T00:00:00.000+00:00},
{'date': 2020-03-16T00:00:00.000+00:00, 'population': 131, 'state': 'NY', 'start': 2020-01-01T00:00:00.000+00:00, 'end': 2021-05-26T00:00:00.000+00:00},
{'date': 2020-03-17T00:00:00.000+00:00, 'population': 138, 'state': 'NY', 'start': 2020-01-01T00:00:00.000+00:00, 'end': 2021-05-26T00:00:00.000+00:00},
...
{'date': 2020-03-16T00:00:00.000+00:00, 'population': 31, 'state': 'AL', 'start': 2020-03-16T00:00:00.000+00:00, 'end': 2021-05-24T00:00:00.000+00:00},
{'date': 2020-03-17T00:00:00.000+00:00, 'population': 31, 'state': 'AL', 'start': 2020-03-16T00:00:00.000+00:00, 'end': 2021-05-24T00:00:00.000+00:00},
...
每个文档代表数据中存在的给定区域中的日期和人口,以及该区域存在的第一个和最后一个记录日期。
我希望能够可视化这些数据的聚合时间趋势。在这个简单的示例中,我将在 y 轴上可视化人口(在给定日期的所有人口的总和),在 x 轴上可视化日期。问题是我只需要可视化一个全面的集合。例如,由于 AL 的数据仅从 2020-03-16 开始,因此我不希望我的人口可视化在添加新状态时跳到该日期。
我不想及时向后插值;我宁愿只是在给定的时间范围内推断出可行的集合,并在该综合子集上进行聚合。
在给定开始日期和结束日期的情况下,是否有一种简单的方法可以识别具有连续数据的状态集,并在此之上汇总人口?
例如,如果我的输入是
first: '2020-03-16'
last: '2021-05-24'
我的输出将是这样的:
{'date': 2020-03-16T00:00:00.000+00:00, 'setsize': 2, 'set': ['NY', 'AL'], 'population': 162},
{'date': 2020-03-17T00:00:00.000+00:00, 'setsize': 2, 'set': ['NY', 'AL'], 'population': 169},
...
但是,如果我的输入是
first: '2020-03-15'
last: '2021-05-24'
我的输出将只包括 NY,因为在第一个日期没有 AL 的数据,所以我的输出将是
{'date': 2020-03-15T00:00:00.000+00:00, 'setsize': 1, 'set': ['NY'], 'population': 119},
{'date': 2020-03-16T00:00:00.000+00:00, 'setsize': 1, 'set': ['NY'], 'population': 131},
{'date': 2020-03-17T00:00:00.000+00:00, 'setsize': 1, 'set': ['NY'], 'population': 138},
...
解决方案
您可以使用聚合
$match
按条件获取文件$group
按日期分组
这是代码
db.collection.aggregate([
{
"$match": {
$expr: {
$and: [
{ $gt: [ "$date", "2020-03-15" ]},
{ $lt: [ "$date", "2021-05-24" ] }
]
}
}
},
{
"$group": {
"_id": "$date",
"setSize": { "$sum": 1 },
"set": { $push: "$state" },
population: { $sum: "$population" }
}
}
])
工作Mongo游乐场
注意:您没有提到日期格式。所以我将日期作为字符串。如果您有日期格式,您可以简单地将其转换为日期-> 字符串或字符串-> 日期
推荐阅读
- css - 在反应中为组件设置样式
- java - Vaadin Notification 阻止对其背后元素的访问
- odata - Project Online - 通过 REST 服务查询自定义列表
- maven - Maven POM 中的 java.io.File[] 是什么?
- git - git pull master:错误:找不到存储库
- python - 返回具有 % 匹配列的匹配词
- swift - 为什么将带有子类型 B 的某些元素的 A 类型数组发送到 Firestore 会强制全部发送给 A?
- ios - SwiftUI:警报自动关闭(当它不应该时!)
- javascript - 如何使最终用户无法访问由 Electron App 创建的 SQLite 数据库文件
- node.js - 从 MS Teams 中的消息扩展上传附件