Adventure项目1学习记录

一、导入模块

导入mysql模块:

import pymysql
#为了兼容mysqldb,只需要加入
pymysql.install_as_MySQLdb()
#导入sqlalchemy中的create_engine
from sqlalchemy import create_engine

PS:由于之前学习下载ipython包时发现电脑windows版本较低或网络环境较差的原因,导致无法通过pip install 第三方包下载第三方包,因此这次下载pymysql包,直接选择在Anaconda下载,结果不错,安装成功。
具体按照操作:Anaconda Navigator—Environments—apply pymysql包
安装过程如下图:


1.1.png

1.2.png

1.3.png

1.4.png

1.5.png

1.6.png

二、读取数据

打开数据库——engine =create_engine('dialect+driver://username:password@host:port/database')

其中:

1045问题报错:
2.1.png
问题原因:数据库用户名填写有误,已解决

三、查看数据信息

数据字典:
3.1.png
数据源初步分析思路:
3.2.png
数据源初步操作思路:
3.3.png

四、需注意的操作

1.1.4提取月份维度:
gather_customer_order['create_date'] =pd.to_datetime(gather_customer_order['create_date'])
gather_customer_order['create_year_month']=gather_customer_order['create_date'].astype('str').str[0:7]
1.2.2新增一列order_num_diff,此为每月自行车销售订单量环比,本月与上月对比,例如本期2019-02月销售额与上一期2019-01月销售额做对比

第一步:利用diff函数和列表方法计算环比

#求每月自行车销售订单量环比,观察最近一年数据变化趋势
#环比是本月与上月的对比,例如本期2019-02月销售额与上一期2019-01月销售额做对比
order_num_diff = list((overall_sales_performance.order_num.diff()/overall_sales_performance.order_num)-1)
order_num_diff.pop(0)
order_num_diff.append(0)
order_num_diff

第二步:将环比转化为DataFrame,并合并表格

order_num_diff= pd.DataFrame(order_num_diff)
overall_sales_performance= pd.concat([overall_sales_performance,pd.DataFrame(order_num_diff)],axis=1)

第三步:更改列名,否则显示列名是0

overall_sales_performance =overall_sales_performance.rename(columns ={0:'order_num_diff'})
ps:diff()函数用法

df.diff() 内部实际先执行df.shift(),后执行df.shift()-df 两个操作
diff()函数原型:
DataFrame.diff(periods=1, axis=0)
参数:
periods:移动的幅度,int类型,默认值为1。
axis:移动的方向,{0 or ‘index’, 1 or ‘columns’},如果为0或者’index’,则上下移动,如果为1或者’columns’,则左右移动。

1.2.4存储数据至mysql:
1054报错问题:
1.2.4.png
问题原因:表格名重复,现修改,已解决
2.2.2求不同区域10月11月的环比:
#1、获得去重区域的列表region_list
region_list=list(gather_customer_order_10_11_group.chinese_territory.unique())
region_list
#2、利用for循环区域列表,结合loc定位符合区域,利用pct_change()函数实现环比效果,形成新的Series
order_x =pd.Series([])
amount_x =pd.Series([])
for i in region_list:
    a =gather_customer_order_10_11_group.loc[gather_customer_order_10_11_group['chinese_territory']==i]['order_num'].pct_change()
    b=gather_customer_order_10_11_group.loc[gather_customer_order_10_11_group['chinese_territory']==i]['sum_amount'].pct_change()
    order_x=order_x.append(a)
    amount_x = amount_x.append(b)
#3、赋予新的Series的变量名并增加列
gather_customer_order_10_11_group['order_diff']=order_x.
gather_customer_order_10_11_group['amount_diff']=amount_x
#4、由0替换NaN值
gather_customer_order_10_11_group['order_diff']=gather_customer_order_10_11_group['order_diff'].fillna(value =0)
gather_customer_order_10_11_group['amount_diff']=gather_customer_order_10_11_group['amount_diff'].fillna(value =0)
ps:pct_change()函数

表示当前元素与上一个元素的相差百分比,由于筛选出的只有10-11月的数据,因此只有11月份同比有数据,10月无数据,返回结果会是空值,即NaN,需要在清洗时由0值替换。

2.3.2、将gather_customer_order_11按照chinese_city城市分组,求和销售数量order_num,赋予变量gather_customer_order_city_head

一开始写成这样报错(尴尬):

grouped_city=gather_customer_order_11.groupby('chinese_city')
gather_customer_order_city_head=grouped_city['order_num'].agg({'order_num':sum}
1.png

2.png

正解:

grouped_city=gather_customer_order_11.groupby('chinese_city')
gather_customer_order_city_head=pd.DataFrame(grouped_city['order_num'].sum()).reset_index()
3.png
ps:更加理解单列分组聚合与多列分组聚合后返回结果的数据结构区别,即返回后的值为Series还是DataFrame,了解这个,以便于进行后续操作。
4.1.1 根据sales_customer_order_11['birth_date'],获取客人的年份作为新的一列

正解:

sales_customer_order_11['birth_date']= pd.DataFrame((sales_customer_order_11['birth_date'].astype('str').str[0:4]))
4.1.2 sales_customer_order_11['birth_year']字段要求修改为int类型

正解:

sales_customer_order_11['birth_year']=sales_customer_order_11['birth_year'].astype(float).fillna(value=0).astype(int)

做的过程中报错:ValueError: Cannot convert non-finite values (NA or inf) to integer
原因:原因是['birth_year']列有些记录是空,所以没法转成int。
解决:将此列空值填充为0或其他数字,然后再使用df['birth_year'].astype(int)转换数据格式

4.1.3 利用customer_age字段,进行年龄分层,划分层次为"30-34","35-39","40-44","45-49","50-54","55-59","60-64"
bins =[30,34,39,44,49,54,59,64]
group_names=["30-34","35-39","40-44","45-49","50-54","55-59","60-64"]
sales_customer_order_11['age_level']= pd.cut(sales_customer_order_11['customer_age'],bins=bins,labels =group_names)

PS:注意labels数量必须少于bins一个,还有bins取范围(30-34],(34-39]
所以想要表达30-34,,35-39区间,bins=[30,34,39]!!!

五、数据加工后的图表数据字典

图.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341