最近在用Pomelo框架开发的时候,碰到一个这样的需求,对mongodb中的某一个集合进行group分组计算,原本以为很简单的功能,分分钟可以搞定,没想到碰了一鼻子灰,网上搜索到的各种资料要么是错误的,要么就是老的无法适应新版本mongoose和mongodb,最后没办法只能自己去看mongoose官方文档和mongodb手册才解决了问题,写此博文记录下来,方便自己以后查阅和同样碰到问题的同学搜索。
在mongoose文档页面中,搜索关键字group
只有聊聊几个,他们都是集中在关键字“Aggregate”这个类下面的,Aggregate中文直译就是合计的意思,在mongoose上的文档非常简单,所以我们还是要结合mongodb官方的文档才能看懂他的用法。
我记得在mongodb2.0以前group是可以直接通过collection.group来操作的,貌似现在mongodb官方想用Aggregate来替换直接的collection.group了,下面对mongoose中的Aggregate几个方法做一下简单的介绍:
调用Model.aggregate()将会返回aggregate实例,他具有如下这些方法:
1、append
往aggregate管道里添加一个新的操作,比如新增加一个match匹配方式:
aggregate.append({ $project: { field: 1 }}, { $limit: 2 });
// or pass an array
var pipeline = [{ $match: { daw: 'Logic Audio X' }} ];
aggregate.append(pipeline);
只是一个语法糖的效果,方便统一的api
2、exec
执行当前的aggregate管道内容,和之前的其他find操作一样,传入一个回调函数,执行这次计算操作,这里不多说。
3、allowDiskUse
在mongodb 2.6之后加入,告诉mongodb是否需要将本次汇总计算时暂时用硬盘存储。
4、cursor
批量设置游标大小
5、group
分组操作,表示对某些字段进行分组,比如我们对department字段进行分组:
aggregate.group({ _id: "$department" });
6、limit
表示限制返回集合的大小,例如:
aggregate.limit(10);
7、match
表示汇总计算的筛选条件,比如:
aggregate.match({ department: { $in: [ "sales", "engineering" } } });
就是从以上条件中进行group分组汇总操作
8、near
查找附近的记录,如下代码:
aggregate.near({
near: [40.724, -73.997],
distanceField: "dist.calculated", // required
maxDistance: 0.008,
query: { type: "public" },
includeLocs: "dist.location",
uniqueDocs: true,
num: 5
});
9、project
根据project表达式指定输入的字段或者计算的字段,语法如下:
{ $project: { <specifications> } }
比如有如下文档:
{
"_id" : 1,
title: "abc123",
isbn: "0001122223334",
author: { last: "zzz", first: "aaa" },
copies: 5
}
指定_id、title,author出现在输出的文档中:
{
$project : {
title : 1 ,
author : 1
}
}
经过操作之后,就将输出
{ "_id" : 1, "title" : "abc123", "author" : { "last" : "zzz", "first" : "aaa" } }
当然,在之前也可以指定内嵌文档的字段,比如上面可以指定只输出author.last。 也可以通过加入计算操作,生成新的文档,数据库有如下文档:
{
"_id" : 1,
title: "abc123",
isbn: "0001122223334",
author: { last: "zzz", first: "aaa" },
copies: 5
}
进行如下操作
db.books.aggregate(
[
{
$project: {
title: 1,
isbn: {
prefix: { $substr: [ "$isbn", 0, 3 ] },
group: { $substr: [ "$isbn", 3, 2 ] },
publisher: { $substr: [ "$isbn", 5, 4 ] },
title: { $substr: [ "$isbn", 9, 3 ] },
checkDigit: { $substr: [ "$isbn", 12, 1] }
},
lastName: "$author.last",
copiesSold: "$copies"
}
}
]
)
操作之后的结果如下:
{
"_id" : 1,
"title" : "abc123",
"isbn" : {
"prefix" : "000",
"group" : "11",
"publisher" : "2222",
"title" : "333",
"checkDigit" : "4"
},
"lastName" : "zzz",
"copiesSold" : 5
}
10、read
当查询汇总操作时的读取偏好,可以从以下这些中设置一个:
- ReadPreference.PRIMARY,从分布式部署的主库PRIMARY读取,如果主库PRIMARY不能访问则会报异常,默认设置
- ReadPreference.PRIMARY_PREFERRED,从主库读取,如果主库不能访问,则尝试从SECONDARY读取
- ReadPreference.SECONDARY,从SECONDARY读取数据,否则报异常
- ReadPreference.SECONDARY_PREFERRED,从SECONDARY读取,否则从PRIMARY读取
- ReadPreference.NEAREST,从延迟最小的一个节点读取数据,无论主从
Model.aggregate(..).read('primaryPreferred').exec(callback)
11、skip
表示跳过多少条记录
aggregate.skip(10);
12、sort
对计算结果排序
// 下面这些是等价的
aggregate.sort({ field: 'asc', test: -1 });
aggregate.sort('field -test');
13、unwind
将输入的文档数组解构,看个例子就明白了,有如下文档数据:
{ "_id" : 1, "item" : "ABC1", sizes: [ "S", "M", "L"] }
进行unwind操作:
db.inventory.aggregate( [ { $unwind : "$sizes" } ] )
输出结果:
{ "_id" : 1, "item" : "ABC1", "sizes" : "S" }
{ "_id" : 1, "item" : "ABC1", "sizes" : "M" }
{ "_id" : 1, "item" : "ABC1", "sizes" : "L" }
14、Aggregate中的一些操作关键字
- $and,与操作
- $or,或操作
- $not,非操作
- $setEquals,设置列是否相同,相同返回true
如下数据:
{ "_id" : 1, "A" : [ "red", "blue" ], "B" : [ "red", "blue" ] }
{ "_id" : 2, "A" : [ "red", "blue" ], "B" : [ "blue", "red", "blue" ] }
{ "_id" : 3, "A" : [ "red", "blue" ], "B" : [ "red", "blue", "green" ] }
{ "_id" : 4, "A" : [ "red", "blue" ], "B" : [ "green", "red" ] }
{ "_id" : 5, "A" : [ "red", "blue" ], "B" : [ ] }
{ "_id" : 6, "A" : [ "red", "blue" ], "B" : [ [ "red" ], [ "blue" ] ] }
{ "_id" : 7, "A" : [ "red", "blue" ], "B" : [ [ "red", "blue" ] ] }
{ "_id" : 8, "A" : [ ], "B" : [ ] }
{ "_id" : 9, "A" : [ ], "B" : [ "red" ] }
进行操作:
db.experiments.aggregate(
[
{ $project: { A: 1, B: 1, sameElements: { $setEquals: [ "$A", "$B" ] }, _id: 0 } }
]
)
执行的结果如下:
{ "A" : [ "red", "blue" ], "B" : [ "red", "blue" ], "sameElements" : true }
{ "A" : [ "red", "blue" ], "B" : [ "blue", "red", "blue" ], "sameElements" : true }
{ "A" : [ "red", "blue" ], "B" : [ "red", "blue", "green" ], "sameElements" : false }
{ "A" : [ "red", "blue" ], "B" : [ "green", "red" ], "sameElements" : false }
{ "A" : [ "red", "blue" ], "B" : [ ], "sameElements" : false }
{ "A" : [ "red", "blue" ], "B" : [ [ "red" ], [ "blue" ] ], "sameElements" : false }
{ "A" : [ "red", "blue" ], "B" : [ [ "red", "blue" ] ], "sameElements" : false }
{ "A" : [ ], "B" : [ ], "sameElements" : true }
{ "A" : [ ], "B" : [ "red" ], "sameElements" : false }
- $setIntersection 找出数组中多个内嵌文档数组中的相同的内容
- $setUnion 找出数组中多个内嵌文档数组非重复内容
- $setDifference 找出数组中多个内嵌文档数组中的不同的内容
- $setIsSubset 判断数组A是不是包含数组B
- $anyElementTrue 判断文档数组中是否含有一个值是true的
- $allElementsTrue 判断数组都是是否都为true值
- $cmp 如果两个值相同,返回0,1或-1表示不同
- $eq 判断两个值是否相同
- $gt 第一个值大于第二个值,返回true
- $gte 第一个值大于等于第二个值,返回true
- $lt 第一个值小于第二个值,返回true
- $lte 第一个值小于等于第二个值,返回true
- $ne 第一个值不等于第二个值,返回true
字符串操作:
- $concat 将字符串拼接.
- $substr 截断字符串
- $toLower 转小写
- $toUpper 转大写
- $strcasecmp 当两个字符串相同返回0,当第一个大于第二个返回1,第二个大于第一个返回-1 文字搜索操作:
- $meta 好像是计算汇总命中率 数组操作:
- $size 返回数组的长度
变量操作
- $map 将每一条记录都经过map操作,
{ $map: { input:
, as: , in: }
例如有数据:
{ _id: 1, quizzes: [ 5, 6, 7 ] }
{ _id: 2, quizzes: [ ] }
{ _id: 3, quizzes: [ 3, 8, 9 ] }
执行map操作:
db.grades.aggregate(
[
{ $project:
{ adjustedGrades:
{
$map:
{
input: "$quizzes",
as: "grade",
in: { $add: [ "$$grade", 2 ] }
}
}
}
}
]
)
输出结果,每个都加了2
{ "_id" : 1, "adjustedGrades" : [ 7, 8, 9 ] }
{ "_id" : 2, "adjustedGrades" : [ ] }
{ "_id" : 3, "adjustedGrades" : [ 5, 10, 11 ] }
- $let 可以绑定变量,通过计算输出结果
文字操作:
- $literal 返回一个解析的值
日期操作:
- $dayOfYear 返回日期类型那个中的年的日期,1-366
- $dayOfMonth 返回日期类型中的月中的日期,1-31
- $dayOfWeek 返回周几1-7
- $year 返回年
- $month 返回月1-12
- $week 返回周1-53
- $hour 返回小时0-23
- $minute 返回分钟0-59
- $second 返回秒0-59
- $millisecond 返回毫秒0-999
条件表达式:
- $cond 条件表达式,类似if then else:
- $cond: { if: { $gte: [ "$qty", 250 ] }, then: 30, else: 20 }
- $ifNull 如果条件是null,则返回第三个参数值,如果不是null则返回真实值: description: { $ifNull: [ "$description", "Unspecified" ] }
累加器:
- $sum 累加每个列的数值,如果不是数字将忽略
- $avg 平均所有列的数值
- $first 获取第一个文档指定列的数值
- $last 获取最后一个文档指定列的数值
- $max 获取分组中最大的数值
- $min 获取分组中最小的数值
- $push 将指定列数值放入数组
- $addToSet 将指定列的数值,唯一的值放入数组中
日期统计
Partaker.aggregate({
$group:{
_id:{year:{$year:"$time.join"},month:{$month:"$time.join"},day:{$dayOfMonth:"$time.join"}},
count:{$sum:1}
}
},{
$group:{
_id:{year:"$_id.year",month:"$_id.month"},
dailyusage:{$push:{day:"$_id.day",count:"$count"}}
}
},{
$group:{
_id:{year:"$_id.year"},
monthlyusage:{$push:{month:"$_id.month",dailyusage:"$dailyusage"}}
}
},function(err,partakers){
if(err) console.error(err);
log.info({partakers:partakers},'结果');
});