MongoDB的聚合函数 Aggregate

Aggregate的使用，有利于我们对MongoDB中的集合进行进一步的拆分。

示例：

db.collection.aggregate(  
    {$match:{x:1},  
    {limit:10},  
    {$group:{_id:"$age"}}}  
);

操作符	介绍
$project：	包含、排除、重命名和显示字段
$match：	查询，需要同find()一样的参数
$limit：	限制结果数量
$skip：	忽略结果的数量
$sort：	按照给定的字段排序结果
$group：	按照给定表达式组合结果
$unwind：	分割嵌入数组到自己顶层文件

表达式	描述	实例
$sum	总结从集合中的所有文件所定义的值.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
$avg	从所有文档集合中所有给定值计算的平均.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])
$min	获取集合中的所有文件中的相应值最小.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])
$max	获取集合中的所有文件中的相应值的最大.	db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
$push	值插入到一个数组生成文档中.	db.mycol.aggregate([{$group : {_id : "$by_user", url : {$push: "$url"}}}])
$addToSet	值插入到一个数组中所得到的文档，但不会创建重复.	db.mycol.aggregate([{$group : {_id : "$by_user", url : {$addToSet : "$url"}}}])
$first	根据分组从源文档中获取的第一个文档。通常情况下，这才有意义，连同以前的一些应用 “$sort”-stage.	db.mycol.aggregate([{$group : {_id : "$by_user", first_url : {$first : "$url"}}}])
$last	根据分组从源文档中获取最后的文档。通常，这才有意义，连同以前的一些应用 “$sort”-stage.	db.mycol.aggregate([{$group : {_id : "$by_user", last_url : {$last : "$url"}}}])

这是MongoDB官网上的一个Data Model：

{  
  "_id": "10280",//zipcode  
  "city": "NEW YORK",//城市  
  "state": "NY",//城市缩写  
  "pop": 5574,//人口  
  "loc": [ //经纬度  
    -74.016323,  
    40.710537  
  ]  
}

1、查出一个超过1千万人口的城市

db.zipcodes.aggregate(  
    {$group:{_id:"$state", totalPop:{$sum:"$pop"}},  
    {$match:{totalPop:{$get:10000000}}}  
);

上面的语句相当于： SELECT state, sum(pop) totalPop from zipcodes group by state having by totalPop >= 10000000;

分析：

$group主要是用于分组，其中_id是用组的类型集合，totalPop是生成的一个新的字段，用于存储总数。

其实，document经过$group之后，系统会为其生成一个新的document（新的documment为{"_id":"AK","totalPop":550043}），这在下面的例子中，我们会看得更清楚。

$match，相当于为新生成的document提供查询功能

2、求平均人口，每个state

db.zipcodes.aggregate( { $group :  
                         { _id : { state : "$state", city : "$city" },  
                           pop : { $sum : "$pop" } } },  
                       { $group :  
                       { _id : "$_id.state",  
                         avgCityPop : { $avg : "$pop" } } } )

上述示例中出现了两个$group，那是什么含义呢？

第一个$group是将原来的zipcodes 这个 document变成新的，如：

{  
  "_id" : {  
    "state" : "CO",  
    "city" : "EDGEWATER"  
  },  
  "pop" : 13154  
}

第二个 $group是在，原有的基础之上，再进行一次重新格式化数据，再生成新的document，如：

{  
  "_id" : "MN",  
  "avgCityPop" : 5335  
},

3、查询每个州人口最大和最小的城市

db.zipcodes.aggregate(  
    {$group:{_id:{state:"$state",city:"$city"}, totalPop:{$sum:"$pop"}}},//统计州的所有人，生成一个新的文档，是关于州与其总人口  
    {$sort:{"totalPop":-1}},//对新文档，根据人口数倒序排序  
    {$group:{_id:"$_id.state",  
        "biggestCity":{$first:"$_id.city"},//最大人口的城市  
        "biggestPop":{$first:"totalPop"},//最大人口的数量  
        "smallestCity":{$last:"$_id.city"},  
        "smallestPop":{$last:"totalPop"}  
    }},//重新组成一个新的文件，包含，州名，最大人口数和最小人口数  
    //本来结构到此基本上差不多了  
    //但我们需要再对数据进行格式化  
    {$project:  
        {_id:0,  
        state:"$_id",  
        biggestCity:{name:"$biggestCity",pop:"$biggestPop"},  
        smallestCity:{name:"$smallestCity",pop:"$smallestPop"}        
        }  
    }  
);

数据结构，如下：

{  
  "state" : "RI",  
  "biggestCity" : {  
    "name" : "CRANSTON",  
    "pop" : 176404  
  },  
  "smallestCity" : {  
    "name" : "CLAYVILLE",  
    "pop" : 45  
  }  
}

统计 Aggregate

MongoDB的聚合函数 Aggregate

1、查出一个超过1千万人口的城市

2、求平均人口，每个state

3、查询每个州人口最大和最小的城市

results matching ""

No results matching ""