第三周/第二节学习项目: 绘制各区域对比柱状图

1. 引言

统计赶集网-上海-二手市场19个大类目的发帖量, 并在jupyter-notebook中绘制出各区域发帖量对比的柱状图

2. 分析

  • 先整理源数据, 商品区域信息为None的替换成火星那旮旯
  • 筛选重复的区域使之唯一
  • 分别统计区域出现的次数
  • 生成合乎charts要求格式的字典列表

3. 实现

In [1] :
from pymongo import MongoClient
from string import punctuation
import charts

Server running in the folder /home/wjh at 127.0.0.1:53200


In [2] :
client = MongoClient('10.66.17.17', 27017)
database = client['ganji']
item_info_collection = database['sh_ershou_itemY']

In [3] :
# 修改表中区域为空及二级区域为空的条目
for item in item_info_collection.find():
        # 区域不为空
        if item['area']:
            # 二级区域不为空, 则区域不需要修改
            if item['area'][1]:
                area = item['area']
            # 二级区域为空, 则整个区域换成 原一级区域+'旮旯'
            else:
                area = [i for i in (item['area'][0], '旮旯')]
        # 区域为空, 则替换成: '火星'+'旮旯'
        else:
            area = ['火星', '旮旯']
        # 将区域逐一替换成已经修改好的area
        item_info_collection.update_one({'_id': item['_id']}, {'$set': {'area': area}})
# 输出看下是什么结果
[i['area'] for i in item_info_collection.find().limit(100)]
Out [3] :
[['上海', '徐汇', '植物园'],
 ['火星', '旮旯'],
 ['上海', '松江', '新桥'],
 ['上海', '宝山', '罗南'],
 ['上海', '旮旯'],
 ['火星', '旮旯'],
 ['上海', '浦东'],
 ['火星', '旮旯'],
 ['上海', '浦东', '曹路'],
 ['上海', '浦东', '合庆'],
 ['上海', '松江', '松江大学城'],
 ['上海', '嘉定', '马陆'],
 ['火星', '旮旯'],
...]

In [4] :
# 包含所有二级区域的列表
area_list = [i['area'][1] for i in item_info_collection.find()]
# 区域名字是唯一的集合
area_set = set(item_list)
# 输出看下是什么结果
print(len(area_set), area_set)

21 {'金山', '长宁', '卢湾', '青浦', '杨浦', '普陀', '嘉定', '上海周边', '旮旯', '徐汇', '崇明', '静安', '黄浦', '宝山', '奉贤', '闵行', '浦东', '南汇', '虹口', '闸北', '松江'}


In [5] :
# 统计区域出现次数的列表, 如下看到有21个区域, 包含火星那旮旯
area_times = [area_list.count(index) for index in area_set]
# 输出看下是什么结果
print(len(area_times), area_times)

21 [357, 1581, 486, 1100, 2336, 2817, 2676, 861, 2302, 2848, 90, 1063, 1172, 3222, 1045, 6229, 10469, 827, 1560, 1611, 3174]


In [6] :
# 定义生成图表数据的函数
def area_data_gen(types):
    length = 0
    # 循环次数为区域集合长度
    if length <= len(area_set):
        for name, time in zip(area_set, area_times):
            data = {
                'name': name,
                'data': [time],
                'type': types,
            }
            # 遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行, 所以循环执行就有一个字典列表了
            yield data
# 输出看下是什么结果
[i for i in area_data_gen('column')]
Out [6] :
[{'data': [357], 'name': '金山', 'type': 'column'},
 {'data': [1581], 'name': '长宁', 'type': 'column'},
 {'data': [486], 'name': '卢湾', 'type': 'column'},
 {'data': [1100], 'name': '青浦', 'type': 'column'},
 {'data': [2336], 'name': '杨浦', 'type': 'column'},
 {'data': [2817], 'name': '普陀', 'type': 'column'},
 {'data': [2676], 'name': '嘉定', 'type': 'column'},
 {'data': [861], 'name': '上海周边', 'type': 'column'},
 {'data': [2302], 'name': '旮旯', 'type': 'column'},
 {'data': [2848], 'name': '徐汇', 'type': 'column'},
 {'data': [90], 'name': '崇明', 'type': 'column'},
 {'data': [1063], 'name': '静安', 'type': 'column'},
 {'data': [1172], 'name': '黄浦', 'type': 'column'},
 {'data': [3222], 'name': '宝山', 'type': 'column'},
 {'data': [1045], 'name': '奉贤', 'type': 'column'},
 {'data': [6229], 'name': '闵行', 'type': 'column'},
 {'data': [10469], 'name': '浦东', 'type': 'column'},
 {'data': [827], 'name': '南汇', 'type': 'column'},
 {'data': [1560], 'name': '虹口', 'type': 'column'},
 {'data': [1611], 'name': '闸北', 'type': 'column'},
 {'data': [3174], 'name': '松江', 'type': 'column'}]

In [7] :
# 生成数据
serises = [i for i in area_data_gen('column')]
# 传入参数并绘制图表
charts.plot(serises, show='inline', options=dict(title=dict(text='近段时间上海城区二手物品发帖量')))
Out [7] :
Paste_Image.png

4. 总结

  • mongodb update() 方法:
    update() 方法用于更新已存在的文档。语法格式如下:
db.collection.update(
   <query>,
   <update>,
   {
     upsert: <boolean>,
     multi: <boolean>,
     writeConcern: <document>
   }
)

参数说明:

  • **query **: update的查询条件,类似sql update查询内where后面的。
  • **update **: update的对象和一些更新的操作符(如$,$inc...)等,也可以理解为sql update查询内set后面的
  • **upsert **: 可选,这个参数的意思是,如果不存在update的记录,是否插入objNew,true为插入,默认是false,不插入。
  • **multi **: 可选,mongodb 默认是false,只更新找到的第一条记录,如果这个参数为true,就把按条件查出来多条记录全部更新。
  • **writeConcern **:可选,抛出异常的级别。
    实例
    只更新第一条记录:
db.col.update( { "count" : { $gt : 1 } } , { $set : { "test2" : "OK"} } );

全部更新:

db.col.update( { "count" : { $gt : 3 } } , { $set : { "test2" : "OK"} },false,true );

只添加第一条:

db.col.update( { "count" : { $gt : 4 } } , { $set : { "test5" : "OK"} },true,false );

全部添加加进去:

db.col.update( { "count" : { $gt : 5 } } , { $set : { "test5" : "OK"} },true,true );

全部更新:

db.col.update( { "count" : { $gt : 15 } } , { $inc : { "count" : 1} },false,true );

只更新第一条记录:

db.col.update( { "count" : { $gt : 10 } } , { $inc : { "count" : 1} },false,false );

  • highcharts:
    Highcharts是一款纯javascript编写的图表库,能够很简单便捷的在Web网站或Web应用中添加交互性的图表,Highcharts目前支持直线图、曲线图、面积图、柱状图、饼图、散点图等多达18种不同类型的图表,可以满足你对Web图表的任何需求 !
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容