使用Python对公共自行车情况进行数据分析（一）（好多地方不明白，好好研究呗，笨鸟先飞）

市区运营公共自行车已经有三年了，突然接到任务要进行一个大数据分析，反正也不是很懂，科学方法论，实践出真知，从马克思主义方法论出发，从整体性、实践性、开放性和真理性上阐释公共自行车对于出行的影响，揭示内在的、本质的逻辑联系,就是要按照正确的的科学方法,客观地认识和对待大数据分析，,推动公共自行车的发展建设，运维！

首先，对简友的文章进行一个模拟操作过程，分析内容，根据自己的数据来实现方法的可行性。简友的文件链接地址：

美国西雅图人们使用自行车情况分析与预测（初步）

本内容接下来的说明分析都是根据自己的数据（就是市区自行车的租还数据），模拟简友的方法进行操作实现！

一：研究问题

市区公共自行车的使用情况的几个问题：

1：周一到周末的使用量会有怎么样具体的变化呢！

2：天气对人们使用自行车的使用有多大的影响呢！

3：自行车的使用能否得到用户行为习惯！

二：研究工具

开发工具

总结windows下pythonmon开发工具：

1：写个小脚本，用notepad++或是sublime，在cmd下命令实现。

2：做个小项目：操作数据库读写的小案例，自己学习用的，推荐用spyder。

3：做生产项目赚钱的，推荐专业的IDE，如Pycharm，Eclipse with PyDev等。

三：数据分析

1：随机抽取10个数据

%matplotlib inline

import matplotlib.pyplot as plt

import numpy as np

import pandas as pd

hourly = pd.read_csv(r"D:\working\windows\bikeAnalyze\SeattleBike\bike2015.csv",parse_dates=True,index_col="Date")#读入数据，同时默认“Date作为index”

hourly.sample(n = 10) #随机抽取10行查看情况

随机抽取数据图表

选择2015年的数据

2：对租车数跟还车数进行统计

hourly.columns = ['lendbike', 'rentbike'] #把列名改的简单一些，两个列名代表自行车经过时的方向。

hourly["total"] = hourly.lendbike + hourly.rentbike #新加一列，计算每个时刻自行车的总数

daily = hourly.resample("d",how='sum') #对数据框的日期按照天进行重采样，属于同一天的加在一起

weekly = daily.resample('w', how = 'sum') #对数据框的日期按照天进行重采样，属于同周的加在一起

weekly.plot()

过程中有一些警告，可以不处理

警告信息

数据结果图表：

租还车统计数据

稍微说下：表示蓝色线的租车数量在图中好像不显示，实际上市由于租车和还车的数据相差不大，对于用万来统计数量，就更小了，导致租车蓝色数据线没有显示。

3：白昼时间对租还车数量的影响

白昼时间计算方式：

def hours_of_daylight(date, axis=19.44, latitude=29.08):

"""Compute the hours of daylight for the given date

date： exmple:2012-10-07

axis: 地区的经度

latitude: 地区的纬度

return :how many hours a day

"""

diff = date - pd.datetime(2000, 12, 21)

day = diff.total_seconds() / 24. / 3600

day %= 365.25

m = 1. - np.tan(np.radians(latitude)) * np.tan(np.radians(axis) * np.cos(day * np.pi / 182.625))

m = max(0, min(m, 2))

return 24. * np.degrees(np.arccos(1 - m)) / 180.

几个未解决的问题：

（1）经纬度的计算，经度相差100度，纬度正常，后来在计算的时候发现用，经纬度查询出来的工具，得到的结果是不对的，全部是一条直线。按照前面简友的文章计算西雅图的经纬度也差100度，这个怎么计算的，一下子没懂？？？？？？？？

（2）时间计算方式：从(2000, 12, 21)这一天开始算，是什么缘故，我更改下数值，比如(2000, 01, 01),结果得到的白昼时间也还有差异。

白昼时间变化数据图形

4：自行车的数量变化和白天的长度之间的关系

plt.scatter(weekly.day_of_hours,weekly.total)

plt.xlabel('daylight hours')

plt.ylabel('weekly bicycle traffic');

两者关系数据图形

是否存在线性关系很难说，而且跟简友的数据有一定的偏差，不管如何，还是验证一下。使用简友说的scikit-learn。

from sklearn.linear_model import LinearRegression

X = weekly[['day_of_hours']] #白昼时间作为自变量

y = weekly['total'] #自行车数量作为应变量

clf = LinearRegression(fit_intercept=True).fit(X, y) #对上面两个变量进行线性拟合

print(clf.coef_)

#按照这个线性模型，白昼时间每增加一个小时，那么一周内观察到的自行车数量增加2056辆

print(clf.score(X,y))

#计算线性模型对数据的拟合情况，结果越接近1，说明线性模型越精确

#为了更加直观看出我们建立的线性模型的预测效果，我们对预测结果和真实结果进行可视化对比

weekly["day_of_hours_trend"] = clf.predict(X) #利用模型去预测"total"

weekly[["day_of_hours_trend","total"]].plot() #利用模型预测值和真实值进行对比

线性关系数据图形

5：工作日与骑行量的数据关系

days = ['Mon','Tues','Wed','Thurs','Fri','Sat','Sun']defget_day_of_week(index):returndays[index.dayofweek]daily["day_of_week"] = daily.index.map(get_day_of_week)daily.head(10)day_count = daily.groupby("day_of_week").total.sum().plot(kind ='bar')

数据关系图形

这个结果可以了解，周一到周五人们使用自行车的情况最多，周六和周末相对减少，看来大部分市民是用自行车来上班的。到目前为止，影响选择自行车出行的方式已经有白昼的时长、星期几这两个因素了，下面我们根据简友说的天气变化的影响

6：天气变化跟骑行量的数据关系

由于没有天气变化的数据文件，只能根据github上的数据来做下模拟分析

数据导入

weather = pd.read_csv(r"D:\working\windows\bikeAnalyze\SeattleBike\SeaTacWeather.csv",index_col="DATE",parse_dates = True,usecols=[2,3,6,7]) #读入天气文件

weather.sample(n = 10) #随机查看10行数据

显示图表

西雅图天气情况

#对温度和降雨量进行单位转化，转化到我们日常生活中的单位

weather['TMIN'] =0.18* weather['TMIN'] +32

weather['TMAX'] =0.18* weather['TMAX'] +32

weather['PRCP'] /=254weather.TMIN.plot()#绘出每日最高温随着时间的变化weather.TMAX.plot()#绘出每日最低温随着时间的变化

数据关系图形

气温随着时间变化图

重新计算采样方式

#按照每周进行时间规划，选出每周温度最大的和温度最小的，可视化weather.TMIN.resample('w',how='min').plot()

weather.TMAX.resample('w',how='max').plot()

plt.xlabel("日期")

plt.ylabel("每周的最大气温和最小气温")

重新采样图形关系图

每天温度差

绿色代表每天的最高气温

蓝色代表每天的最低气温

我的编译环境识别不了中文，中文显示乱码

7：天气、白昼时长、星期几这三个变量，对自行车骑行的变化影响以及根据这三个变量去预测自行车的数目变化。

算法分析

daily_1 =daily

fori inrange(7):

daily_1[days[i]]= (daily_1.index.dayofweek == i).astype(float)

daily_1.head(10)

结构关系显示图表

离散变量转化成连续变量

根据简友的说明，可以发现：“day_of_week”转化成了7列，而这7列的值都是数值，因此我们利用“day_of_hours”和['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun']总共八个变量去预测自行车总数的变化。

计算误差

我们截图上发现，我们利用两个给出的信息，分别是星期几和白昼时长，我们就可以判断，这个某一天的自行车总数，平均误差在13102辆。

所以说我们的计算方式在存在相当大的问题。

分析原因：1：白昼时间的计算方式

2：剔除节假日的较大变化数据

3：考虑其他变量影响

8：降水量、温度、白昼时长、和星期几等多数据对自行车骑行量的分析

计算方式：

daily_new = daily_1.join(weather,how ='inner')##对daily 和 weather按照index，进行合并#使用合并后的数据进行计算：包括周几，每天白昼有几个小时，温度的最大和最小值，降雨量作为自变量去预测每天的自行车总数

columns = days + ['day_of_hours','TMIN','TMAX','PRCP']

X = daily_new[columns]

y= daily_new['total']

clf = LinearRegression().fit(X,y)

daily_new['overall_trend'] = clf.predict(X)

发现执行之后，发现一些错误。

错误问题

根据简友说的，降雨量对自行车骑行总数的影响

ind = columns.index('PRCP')

slope = clf.coef_[ind]

print(slope)

9：

使用sklearn.linear_model.LinearRegression进行线性回归

应用场景：1) 预测房子价格

2) 预测下周哪个电视节目会有更多的观众

3) 替换数据集中的缺失值

结论，根据简友的说明，重复这些代码也是能够完全重现以上的这些结果的！

本人也亲测过可以使用，但是用我的数据文件就会出错，明天在好好查查原因。

虽然最后出现一点问题，但是关系不大，当做学习，明天继续把下一篇进阶文章看完。感谢简友作者的文章，学习了！

人生苦短，我用python

希望在简友圈跟大家学习交流！

最后编辑于：2017.12.05 03:03:55

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

使用Python对公共自行车情况进行数据分析（一）（好多地方不明白，好好研究呗，笨鸟先飞）

推荐阅读更多精彩内容