27 分析电子游戏在各国的销量并使用堆叠柱状图呈现

分析电子游戏在各国的销量并使用堆叠柱状图呈现

目标

i业务场景

数据清洗过滤

堆叠柱状图

数据集的样式

pandas 数据源下载地址

数据集的样式: 名称、平台、

import matplotlib.pyplot as plt
import pandas as pd
import os

#比较销量

file_path = '/Users/miraco/PycharmProjects/DataMining/data_pd/video_games_sales.csv'
outpath = './coffee_stat/ouptput'

#os.mkdir 與 os.makedirs 的差別在於 os.makedirs 會遞迴地去建立目錄，也就是說連同中繼的目錄也會一起建立
if not os.path.exists(outpath):
    os.makedirs(outpath)

def collect_data():
    data_df = pd.read_csv(file_path)  #这是二维数组
    return data_df
def inspect_data(data_df):
    #数据有噪声的时候，读取为保险起见，会被读取成obj类型
    print(f'数据一共有{data_df.shape[0]}行, {data_df.shape[1]}列')
    print('-----------------------------------------------------')
    print('数据预览：')
    # 如果想看又怕太多，可以用data_df.head()，只显示前几行
    print(data_df.head())
    print('-----------------------------------------------------')
    print('数据的基本信息：')
    # data_df.info()可以看数据类型，字符串看成obj类型，数字会自动读取成float或int
    print(data_df.info())
    print('-----------------------------------------------------')
    print('数据统计信息')
    #均值、最大值、最小值啥的
    print(data_df.describe())
    print('-----------------------------------------------------')
def process_data(data_df):
    #数据处理
    #处理空值
    cln_data_df = data_df.dropna()
    #按年份过滤
    cond = (cln_data_df['Year'] >= 2005) & (cln_data_df['Year'] <= 2017)
    filtered_data_df  = cln_data_df[cond].copy()  #copy一下，新的数据和原数据断开关联性，否则这是深拷贝

    #全球销量 像加字典一样就行了，多加一列，全都是向量化操作
    filtered_data_df['Global_Sales'] = filtered_data_df['NA_Sales'] + filtered_data_df['EU_Sales'] + filtered_data_df['JP_Sales'] + filtered_data_df['Other_Sales']
    print(f'原始数据有{data_df.shape[0]}记录，处理后的数据有{filtered_data_df.shape[1]}行记录')
    return filtered_data_df


def analyze_data(data_df):
    # 取全球销量前20进行查看
    top20_games = data_df.sort_values(by = 'Global_Sales', ascending = False).head(20)

    # 全球销量大于500W的数据
    filtered_data_df = data_df[data_df['Global_Sales'] >5]

    # 在四个市场中分别对发行商进行求和
    sales_cmp_results = filtered_data_df.groupby('Publisher')[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']].sum()

    return top20_games, sales_cmp_results



def save_and_show_results(top20_games, sales_cmp_results):
    top20_games.to_csv(os.path.join(outpath,'top20_games.csv'), index = False)#保存时候去掉索引，因为pandas 保存时候是默认带有索引的
    sales_cmp_results.to_csv(os.path.join(outpath, 'sales_cmp_results.csv'))  #这个分组操作不带索引，没事

    top20_games.plot(kind = 'bar', x = 'Name', y = 'Global_Sales')   #直接画，无需重复调用figure
    plt.title('Top20 Game sales (2005 - 2017)')
    plt.tight_layout()
    plt.savefig(os.path.join(outpath, 'top20_games.png'))
    plt.show()

    sales_cmp_results.plot.bar(stacked = True)   #堆叠柱状图
    plt.title('Game sales Comparison(2005 - 2017)')
    plt.tight_layout()
    plt.savefig(os.path.join(outpath, 'sales_cmp_results.png'))
    plt.show()

def main():
    #数据获取
    data_df = collect_data()

    #查看数据信息
    inspect_data(data_df)

    #数据处理
    proc_data_df = process_data(data_df)

    #数据分析
    top20_games, sales_cmp_results = analyze_data(proc_data_df)

    #结果展示
    save_and_show_results(top20_games, sales_cmp_results)

if __name__ == '__main__':
    main()

运行结果

数据一共有16598行, 9列
-----------------------------------------------------
数据预览：
                       Name Platform     ...      JP_Sales Other_Sales
0                Wii Sports      Wii     ...          3.77        8.46
1         Super Mario Bros.      NES     ...          6.81        0.77
2            Mario Kart Wii      Wii     ...          3.79        3.31
3         Wii Sports Resort      Wii     ...          3.28        2.96
4  Pokemon Red/Pokemon Blue       GB     ...         10.22        1.00

[5 rows x 9 columns]
-----------------------------------------------------
数据的基本信息：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 9 columns):
Name           16598 non-null object
Platform       16598 non-null object
Year           16327 non-null float64
Genre          16598 non-null object
Publisher      16540 non-null object
NA_Sales       16598 non-null float64
EU_Sales       16598 non-null float64
JP_Sales       16598 non-null float64
Other_Sales    16598 non-null float64
dtypes: float64(5), object(4)
memory usage: 1.1+ MB
None
-----------------------------------------------------
数据统计信息
               Year      NA_Sales      ...           JP_Sales   Other_Sales
count  16327.000000  16598.000000      ...       16598.000000  16598.000000
mean    2006.406443      0.264667      ...           0.077782      0.048063
std        5.828981      0.816683      ...           0.309291      0.188588
min     1980.000000      0.000000      ...           0.000000      0.000000
25%     2003.000000      0.000000      ...           0.000000      0.000000
50%     2007.000000      0.080000      ...           0.000000      0.010000
75%     2010.000000      0.240000      ...           0.040000      0.040000
max     2020.000000     41.490000      ...          10.220000     10.570000

[8 rows x 5 columns]
-----------------------------------------------------
原始数据有16598记录，处理后的数据有10行记录

图

top20

销量比较

总结

练习

使用堆叠柱状图比较不同来源的 PM2.5数值差异

题目描述：

添加一列diff用于比较中国环保部和美国使馆检测的PM2.5值的差异（两列数据的绝对值差）
找出差别最大的10天的记录
使用分组柱状图比较中国环保部和美国使馆检测的每年平均PM2.5的值

题目要求:
使用Pandas进行数据分析及可视化
数据文件：
数据源下载地址：https://video.mugglecode.com/Beijing_PM.csv （数据源与上节课相同）
Beijing_PM.csv，包含了2013-2015年北京每小时的PM2.5值。每行记录为1小时的数据。
共7列数据，分别表示：

year: 年，2013-2015
month: 月，1-12
day: 日，1-31
hour: 小时，0-23
season：季度，1-4
PM_China: 中国环保部检测的PM2.5值
PM_US: 美国使馆检测的PM2.5值

答案

import os
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
filepath = '/Users/miraco/PycharmProjects/DataMining/data_pd/Beijing_PM.csv'
outpath = '/Users/miraco/PycharmProjects/DataMining/coffee_stat/ouptput'

data = pd.read_csv(filepath).dropna()
data_db = data.copy()  #读取数据

data_db['diff'] = abs(data_db['PM_China'] - data_db['PM_US'])  #添加差值列
data_diff = data_db.sort_values(by = 'diff', ascending = False).head(10)    #找出差别最大的10天的记录
print('看看操作完的数据集\n',data_diff.describe())

for i in range(10):
    item = data_diff.iloc[i, :]      #逐行取出，这个零行就是数据，标签有但是不占行
    print('中美测出的第{}大数据差值，是在{}年{}月{}日{}时，差值为{}'.format(
        i+1,
        int(item['year']),
        int(item['month']),
        int(item['day']),
        int(item['hour']),
        item['diff']
    ))

year_mean = data.copy().groupby('year')['PM_China','PM_US'].mean()
year_mean.plot(kind = 'bar', stacked = False, width = 0.35)
plt.xticks(np.arange(4), rotation = 0)

plt.title = ['Year mean PM 2.5 statistics from PRC and US']
plt.legend(['by China', 'by US' ],loc = 'best')
plt.tight_layout()
plt.show()

运行结果

看看操作完的数据集
               year      month     ...           PM_US        diff
count    10.000000  10.000000     ...       10.000000   10.000000
mean   2013.600000   5.900000     ...      199.100000  400.800000
std       0.699206   2.923088     ...      245.649909   89.618698
min    2013.000000   3.000000     ...       31.000000  299.000000
25%    2013.000000   4.000000     ...       47.500000  331.250000
50%    2013.500000   4.000000     ...       90.000000  395.000000
75%    2014.000000   8.000000     ...      171.750000  450.250000
max    2015.000000  12.000000     ...      722.000000  579.000000

[8 rows x 8 columns]
中美测出的第1大数据差值，是在2015年4月15日19时，差值为579.0
中美测出的第2大数据差值，是在2013年8月8日14时，差值为469.0
中美测出的第3大数据差值，是在2014年4月17日1时，差值为453.0
中美测出的第4大数据差值，是在2013年8月14日12时，差值为442.0
中美测出的第5大数据差值，是在2013年12月4日12时，差值为432.0
中美测出的第6大数据差值，是在2014年4月9日19时，差值为358.0
中美测出的第7大数据差值，是在2014年4月13日13时，差值为350.0
中美测出的第8大数据差值，是在2013年8月11日8时，差值为325.0
中美测出的第9大数据差值，是在2014年4月21日9时，差值为301.0
中美测出的第10大数据差值，是在2013年3月18日2时，差值为299.0

图

image.png

最后编辑于：2018.07.27 16:40:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,636评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,890评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,680评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,766评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,665评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,045评论 1赞 276
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,515评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,182评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,334评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,274评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,319评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,002评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,599评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,675评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,917评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,309评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,885评论 2赞 341

27 分析电子游戏在各国的销量并使用堆叠柱状图呈现

数据集的样式

运行结果

图

总结

练习

答案

运行结果

推荐阅读更多精彩内容