简单统计数据与可视化，Python数据分析-ch2.1

1. 提取文件中的时区并计数

有三种写法，虽然常用的是pandas，其实collections做起来也很快。
1.1 纯Python代码，提取并统计时区信息
1.2. 纯Python代码，应用collections.Counter()模块简写
1.3 用pandas处理，并用matplotlib.pyplot画图

1.1 纯Python代码，提取并统计时区信息

从文件中提取时区信息并变为列表
计算每个时区出现次数
排序并打印出现次数最高的n个时区。

# Uses Python3.6

import json

# extract the timezones from the file

path = 'usagov_bitly_data2012-03-16-1331923249.txt'
records = [json.loads(line) for line in open(path)]
time_zones = [rec['tz'] for rec in records if 'tz' in rec]

# count the timezones appearance

def get_counts(sequence):
    counts = dict()
    for x in sequence:
        counts[x] = counts.get(x,0) + 1
    return counts

counts = get_counts(time_zones)

# compute and print the top appearance of the timezones and their counts. 

def top_counts(count_dict, a ):
    n = int(a)
    value_key_pairs = [(count,tz) for tz,count in count_dict.items()]
    value_key_pairs.sort()
    return value_key_pairs[-n:]

print(top_counts(counts,3))

#output 
[(400, 'America/Chicago'), (521, ''), (1251, 'America/New_York')]

1.2. 纯Python代码，应用collections.Counter()模块简写

用collections.Counters就能一键计数啦，十分方便。

import json
from collections import Counter

# extract the timezones from the file

path = 'usagov_bitly_data2012-03-16-1331923249.txt'
records = [json.loads(line) for line in open(path)]
time_zones = [rec['tz'] for rec in records if 'tz' in rec]

# count the timezones appearance

counts = Counter(time_zones)

# compute and print the top appearance of the timezones and their counts. 

print(counts.most_common(3))

1.3 用pandas处理，并用matplotlib.pyplot画图

# Input, uses python 3.6

import json
import pandas as pd
import matplotlib.pyplot as plt

path = 'usagov_bitly_data2012-03-16-1331923249.txt'
records = [json.loads(line) for line in open(path)]

# counts the appearance of the timezone
frame = pd.DataFrame(records)
clean_tz = frame['tz'].fillna('Missing')
clean_tz[clean_tz == ''] = 'Unknown'
tz_counts = clean_tz.value_counts()
print(tz_counts[:10])

# plot it and shows it 
tz_counts[:10].plot(kind='barh',rot=0)
plt.show()

# Output 
America/New_York       1251
Unknown                 521
America/Chicago         400
America/Los_Angeles     382
America/Denver          191
Missing                 120
Europe/London            74
Asia/Tokyo               37
Pacific/Honolulu         36
Europe/Madrid            35
Name: tz, dtype: int64

pandas-timezone.png

学习总结：

取信息并组成列表，可以用[ ]并在其中有简单的循环和条件判断操作。
重用的代码段写为函数，方便调用。
如果没接触过collections ，可以看我的总结如何使用python3 的 collections 模块/库, Container datatypes

参考内容：

《利用python进行数据分析》Wes McKinney
示例代码在github上。
https://github.com/wesm/pydata-book
可以下载个zip包到本地看，也可以用git clone下来。
pydata-book-2nd-edition.zip

最后编辑于：2018.05.16 19:10:33

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343

简单统计数据与可视化，Python数据分析-ch2.1

1. 提取文件中的时区并计数

1.1 纯Python代码，提取并统计时区信息

1.2. 纯Python代码，应用collections.Counter()模块简写

1.3 用pandas处理，并用matplotlib.pyplot画图

推荐阅读更多精彩内容