Mongodb实验篇-Aggregation

听说项目里面Aggregation用的多，那就专门针对这个多多练习一下。

基本的操作包括：

•$project - 可以从子文档中提取字段，可以重命名字段

•$match - 可以实现查找的功能

•$limit - 接受一个数字n，返回结果集中的前n个文档。

•$skip - 接受一个数字n，丢弃结果集中的前n个文档。效率比较低，依然会遍历前n个文档。

•$unwind - 可以将一个包含数组的文档切分成多个, 比如你的文档有中有个数组字段 A, A中有10个元素, 那么经过 $unwind处理后会产生10个文档，这些文档只有字段 A不同

•$group - 统计操作，还提供了一系列子命令

–$avg, $sum …

•$sort - 排序

实验一、学生数据统计

1、生成学生数据：

#!/usr/bin/env python
# coding=utf-8
from pymongo import MongoClient
from random import randint
name1 = ["yang ", "li ", "zhou "]
name2 = [
    "chao",
    "hao",
    "gao",
    "qi gao",
    "hao hao",
    "gao gao",
    "chao hao",
    "ji gao",
    "ji hao",
    "li gao",
    "li hao",
]
provinces = [
    "guang dong",
    "guang xi",
    "shan dong",
    "shan xi",
    "he nan"
]
client = MongoClient('localhost', 27017)
db = client.student
sm = db.smessage
sm.remove()
for i in range(1, 100):
    name = name1[randint(0, 2)] + name2[randint(0, 10)]
    province = provinces[randint(0, 4)]
    new_student = {
        "name": name,
        "age": randint(1, 30),
        "province": province,
        "subject": [
            {"name": "chinese", "score": randint(0, 100)},
            {"name": "math", "score": randint(0, 100)},
            {"name": "english", "score": randint(0, 100)},
            {"name": "chemic", "score": randint(0, 100)},
        ]}
    print new_student
    sm.insert_one(new_student)

print sm.count()

好了，现在数据库里面有100条学生数据了。

现在我要得到广东学生的平均年龄，在mongo控制台输入：

db.smessage.aggregate(
{$match: {province: "guang dong"}},
{$group: { _id: "$province", age:{$avg:"$age"}}}
)

{ "_id" : "guang dong", "age" : 16.05263157894737 }

如果想到得到所有省份的平均年龄，那就更加简单了：

db.smessage.aggregate(
{$match: {province: "guang dong"}}
)

{ "_id" : "guang xi", "age" : 15.19047619047619 }
{ "_id" : "guang dong", "age" : 16.05263157894737 }
{ "_id" : "shan dong", "age" : 17.44 }
{ "_id" : "he nan", "age" : 20 }
{ "_id" : "shan xi", "age" : 16.41176470588235 }

如果想得到广东省所有科目的平均成绩：

db.smessage.aggregate(
{$match: {province: "guang dong"}},
{$unwind: "$subject"},
{$group: { _id: {province:"$province",sujname:"$subject.name"}, per:{$avg:"$subject.score"}}}
)

加上排序：

db.smessage.aggregate(
{$match: {province: "guang dong"}},
{$unwind: "$subject"},
{$group: { _id: {province:"$province",sujname:"$subject.name"}, per:{$avg:"$subject.score"}}},
{$sort:{per:1}}
)

实验二、寻找发帖水王

有一个保存着杂志文章的集合，你可能希望找出发表文章最多的那个作者。假设每篇文章被保存为MongoDB中的一个文档。

1、插入数据

#!/usr/bin/env python
# coding=utf-8
from pymongo import MongoClient
from random import randint


name = [
    'yangx',
    'yxxx',
    'laok',
    'kkk',
    'ji',
    'gaoxiao',
    'laoj',
    'meimei',
    'jj',
    'manwang',
]

title = [
    '123',
    '321',
    '12',
    '21',
    'aaa',
    'bbb',
    'ccc',
    'sss',
    'aaaa',
    'cccc',
]

client = MongoClient('localhost', 30999)
db = client.test
bbs = db.bbs
bbs.remove()
for i in range(1, 10000):
    na = name[randint(0, 9)]
    ti = title[randint(0, 9)]
    newcard = {
        'author': na,
        'title': ti,
    }
    bbs.insert_one(newcard)

print bbs.count()

现在我们拥有了10000条文章数据了。

2、用$project将author字段投射出来

{"$project": {"author":1}}

这个语法与查询中的字段选择器比较像：可以通过指定"fieldname" : 1选择需要投射的字段，或者通过指定"fieldname":0排除不需要的字段。

执行完这个"$project"操作之后，结果集中的每个文档都会以{"_id" : id, "author" : "authorName"}这样的形式表示。这些结果只会在内存中存在，不会被写入磁盘。

3、用group将作者名称分组

{"group":{"_id":"$author","count":{"$sum":1}}}

这样就会将作者按照名字排序，某个作者的名字每出现一次，就会对这个作者的"count"加1。

这里首先指定了需要进行分组的字段"author"。这是由"_id" : "$author"指定的。可以将这个操作想象为：这个操作执行完后，每个作者只对应一个结果文档，所以"author"就成了文档的唯一标识符（"_id"）。

第二个字段的意思是为分组内每个文档的"count"字段加1。注意，新加入的文档中并不会有"count"字段；这"$group"创建的一个新字段。

执行完这一步之后，结果集中的每个文档会是这样的结构：{"_id" : "authorName", "count" : articleCount}。

4、用sort排序

{"$sort" : {"count" : -1}}

这个操作会对结果集中的文档根据"count"字段进行降序排列。

5、限制结果为前5个文档

{"$limit" : 5}

这个操作将最终的返回结果限制为当前结果中的前5个文档。
在MongoDB中实际运行时，要将这些操作分别传给aggregate()函数：

> db.articles.aggregate({"$project" : {"author" : 1}},
... {"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}},
... {"$sort" : {"count" : -1}},
... {"$limit" : 5}
... )

aggregate()会返回一个文档数组，其中的内容是发表文章最多的5个作者。

{ "_id" : "yangx", "count" : 1028 }
{ "_id" : "laok", "count" : 1027 }
{ "_id" : "kkk", "count" : 1012 }
{ "_id" : "yxxx", "count" : 1010 }
{ "_id" : "ji", "count" : 1007 }

最后编辑于：2017.11.27 03:04:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

Mongodb实验篇-Aggregation

实验一、学生数据统计

实验二、寻找发帖水王

推荐阅读更多精彩内容