mongodb - 在聚合期间围绕匹配查询对数据进行分区
问题描述
我一直试图解决的问题是在 mongo 查询中执行某种分区(按谓词分割)。我当前的查询如下所示:
db.posts.aggregate([
{"$match": { $and:[ {$or:[{"toggled":false},{"toggled":true, "status":"INACTIVE"}]} , {"updatedAt":{$gte:1549786260000}} ] }},
{"$unwind" :"$interests"},
{"$group" : {"_id": {"iid": "$interests", "pid":"$publisher"}, "count": {"$sum" : 1}}},
{"$project":{ _id: 0, "iid": "$_id.iid", "pid": "$_id.pid", "count": 1 }}
])
这将产生以下输出:
{
"count" : 3.0,
"iid" : "INT456",
"pid" : "P789"
}
{
"count" : 2.0,
"iid" : "INT789",
"pid" : "P789"
}
{
"count" : 1.0,
"iid" : "INT123",
"pid" : "P789"
}
{
"count" : 1.0,
"iid" : "INT123",
"pid" : "P123"
}
到目前为止一切都很好,但后来我意识到对于匹配特定过滤器的文档{"toggled":true, "status":"INACTIVE"}
,我宁愿减少计数 (-1)。(考虑到最终值也可能是负数。)
match
有没有办法在确保grouping
对文档集合执行不同的操作之后以某种方式对数据进行分区?
听起来与我正在寻找的东西相似的东西是
$mergeObjects
,或者也许$reduce
,但我无法从文档示例中找到很多东西。
注意:我可以感觉到,处理此问题的一种直接方法是执行两个查询,但我正在寻找一个查询来执行该操作。
上述输出的示例文档为:
/* 1 */
{
"_id" : ObjectId("5d1f7******"),
"id" : "CON123",
"title" : "Game",
"content" : {},
"status" : "ACTIVE",
"toggle":false,
"publisher" : "P789",
"interests" : [
"INT456"
],
"updatedAt" : NumberLong(1582078628264)
}
/* 2 */
{
"_id" : ObjectId("5d1f8******"),
"id" : "CON456",
"title" : "Home",
"content" : {},
"status" : "INACTIVE",
"toggle":true,
"publisher" : "P789",
"interests" : [
"INT456",
"INT789"
],
"updatedAt" : NumberLong(1582078628264)
}
/* 3 */
{
"_id" : ObjectId("5d0e9******"),
"id" : "CON654",
"title" : "School",
"content" : {},
"status" : "ACTIVE",
"toggle":false,
"publisher" : "P789",
"interests" : [
"INT123",
"INT456",
"INT789"
],
"updatedAt" : NumberLong(1582078628264)
}
/* 4 */
{
"_id" : ObjectId("5d207*******"),
"id" : "CON789",
"title":"Stack",
"content" : { },
"status" : "ACTIVE",
"toggle":false,
"publisher" : "P123",
"interests" : [
"INT123"
],
"updatedAt" : NumberLong(1582078628264)
}
我期待的结果是
{
"count" : 1.0, (2-1)
"iid" : "INT456",
"pid" : "P789"
}
{
"count" : 0.0, (1-1)
"iid" : "INT789",
"pid" : "P789"
}
{
"count" : 1.0,
"iid" : "INT123",
"pid" : "P789"
}
{
"count" : 1.0,
"iid" : "INT123",
"pid" : "P123"
}
解决方案
这种聚合给出了期望的结果。
db.posts.aggregate( [
{ $match: { updatedAt: { $gte: 1549786260000 } } },
{ $facet: {
FALSE: [
{ $match: { toggle: false } },
{ $unwind : "$interests" },
{ $group : { _id : { iid: "$interests", pid: "$publisher" }, count: { $sum : 1 } } },
],
TRUE: [
{ $match: { toggle: true, status: "INACTIVE" } },
{ $unwind : "$interests" },
{ $group : { _id : { iid: "$interests", pid: "$publisher" }, count: { $sum : -1 } } },
]
} },
{ $project: { result: { $concatArrays: [ "$FALSE", "$TRUE" ] } } },
{ $unwind: "$result" },
{ $replaceRoot: { newRoot: "$result" } },
{ $group : { _id : "$_id", count: { $sum : "$count" } } },
{ $project:{ _id: 0, iid: "$_id.iid", pid: "$_id.pid", count: 1 } }
] )
[编辑添加]
使用来自问题帖子的输入数据的查询输出:
{ "count" : 1, "iid" : "INT123", "pid" : "P789" }
{ "count" : 1, "iid" : "INT123", "pid" : "P123" }
{ "count" : 0, "iid" : "INT789", "pid" : "P789" }
{ "count" : 1, "iid" : "INT456", "pid" : "P789" }
[编辑添加 2]
此查询使用不同的方法(代码)得到相同的结果:
db.posts.aggregate( [
{
$match: { updatedAt: { $gte: 1549786260000 } }
},
{
$unwind : "$interests"
},
{
$group : {
_id : {
iid: "$interests",
pid: "$publisher"
},
count: {
$sum: {
$switch: {
branches: [
{ case: { $eq: [ "$toggle", false ] },
then: 1 },
{ case: { $and: [ { $eq: [ "$toggle", true] }, { $eq: [ "$status", "INACTIVE" ] } ] },
then: -1 }
]
}
}
}
}
},
{
$project:{
_id: 0,
iid: "$_id.iid",
pid: "$_id.pid",
count: 1
}
}
] )
[编辑添加 3]
笔记:
方面查询在同一组文档上运行两个方面(TRUE 和 FALSE);这就像两个并行运行的查询。但是,存在一些重复的代码以及额外的阶段,用于将文档沿管道整形以获得所需的输出。
第二个查询避免了代码重复,并且聚合管道中的阶段要少得多。当输入数据集有大量文档要处理时,这将产生影响——就性能而言。一般来说,更少的阶段意味着更少的文档迭代(因为一个阶段必须扫描从前一个阶段输出的文档)。
推荐阅读
- keras - keras 序列模型中的编译步骤抛出错误“ValueError:layersequential_9 的输入 0 与该层不兼容:
- go - 如何安装谷歌云视觉api?
- c# - [DllImport] 是否每次都导入整个 DLL 库?
- ssl - 如何使服务器仅使用 TLS/SSL 对选定的客户端进行身份验证
- vbscript - 即使我在 VBScript 中有管理员权限,权限也被拒绝
- javascript - 字体颜色不会恢复为原始颜色
- node.js - passeportjs 出错并在 express 应用上续集
- javascript - 如何在c#中动态地将多个纬度和经度传递给谷歌距离矩阵api?
- php - 想用react route功能,不能按参数分类吗?
- python - 在 Python 的主线程中使用线程锁时