市区运营公共自行车已经有三年了,突然接到任务要进行一个大数据分析,反正也不是很懂,科学方法论,实践出真知,从马克思主义方法论出发,从整体性、实践性、开放性和真理性上阐释公共自行车对于出行的影响,揭示内在的、本质的逻辑联系,就是要按照正确的的科学方法,客观地认识和对待大数据分析,,推动公共自行车的发展建设,运维!
首先,对简友的文章进行一个模拟操作过程,分析内容,根据自己的数据来实现方法的可行性。简友的文件链接地址:
本内容接下来的说明分析都是根据自己的数据(就是市区自行车的租还数据),模拟简友的方法进行操作实现!
一:研究问题
市区公共自行车的使用情况的几个问题:
1:周一到周末的使用量会有怎么样具体的变化呢!
2:天气对人们使用自行车的使用有多大的影响呢!
3:自行车的使用能否得到用户行为习惯!
二:研究工具
总结windows下pythonmon开发工具:
1:写个小脚本,用notepad++或是sublime,在cmd下命令实现。
2:做个小项目:操作数据库读写的小案例,自己学习用的,推荐用spyder。
3:做生产项目赚钱的,推荐专业的IDE,如Pycharm,Eclipse with PyDev等。
三:数据分析
1:随机抽取10个数据
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
hourly = pd.read_csv(r"D:\working\windows\bikeAnalyze\SeattleBike\bike2015.csv",parse_dates=True,index_col="Date")#读入数据,同时默认“Date作为index”
hourly.sample(n = 10) #随机抽取10行查看情况
随机抽取数据图表
2:对租车数跟还车数进行统计
hourly.columns = ['lendbike', 'rentbike'] #把列名改的简单一些,两个列名代表自行车经过时的方向。
hourly["total"] = hourly.lendbike + hourly.rentbike #新加一列,计算每个时刻自行车的总数
daily = hourly.resample("d",how='sum') #对数据框的日期按照天进行重采样,属于同一天的加在一起
weekly = daily.resample('w', how = 'sum') #对数据框的日期按照天进行重采样,属于同周的加在一起
weekly.plot()
过程中有一些警告,可以不处理
数据结果图表:
稍微说下:表示蓝色线的租车数量在图中好像不显示,实际上市由于租车和还车的数据相差不大,对于用万来统计数量,就更小了,导致租车蓝色数据线没有显示。
3:白昼时间对租还车数量的影响
白昼时间计算方式:
def hours_of_daylight(date, axis=19.44, latitude=29.08):
"""Compute the hours of daylight for the given date
date: exmple:2012-10-07
axis: 地区的经度
latitude: 地区的纬度
return :how many hours a day
"""
diff = date - pd.datetime(2000, 12, 21)
day = diff.total_seconds() / 24. / 3600
day %= 365.25
m = 1. - np.tan(np.radians(latitude)) * np.tan(np.radians(axis) * np.cos(day * np.pi / 182.625))
m = max(0, min(m, 2))
return 24. * np.degrees(np.arccos(1 - m)) / 180.
几个未解决的问题:
(1)经纬度的计算,经度相差100度,纬度正常,后来在计算的时候发现用,经纬度查询出来的工具,得到的结果是不对的,全部是一条直线。按照前面简友的文章计算西雅图的经纬度也差100度,这个怎么计算的,一下子没懂????????
(2)时间计算方式:从(2000, 12, 21)这一天开始算,是什么缘故,我更改下数值,比如(2000, 01, 01),结果得到的白昼时间也还有差异。
白昼时间变化数据图形
4:自行车的数量变化和白天的长度之间的关系
plt.scatter(weekly.day_of_hours,weekly.total)
plt.xlabel('daylight hours')
plt.ylabel('weekly bicycle traffic');
两者关系数据图形
是否存在线性关系很难说,而且跟简友的数据有一定的偏差,不管如何,还是验证一下。使用简友说的scikit-learn。
from sklearn.linear_model import LinearRegression
X = weekly[['day_of_hours']] #白昼时间作为自变量
y = weekly['total'] #自行车数量作为应变量
clf = LinearRegression(fit_intercept=True).fit(X, y) #对上面两个变量进行线性拟合
print(clf.coef_)
#按照这个线性模型,白昼时间每增加一个小时,那么一周内观察到的自行车数量增加2056辆
print(clf.score(X,y))
#计算线性模型对数据的拟合情况,结果越接近1,说明线性模型越精确
#为了更加直观看出我们建立的线性模型的预测效果,我们对预测结果和真实结果进行可视化对比
weekly["day_of_hours_trend"] = clf.predict(X) #利用模型去预测"total"
weekly[["day_of_hours_trend","total"]].plot() #利用模型预测值和真实值进行对比
线性关系数据图形
5:工作日与骑行量的数据关系
days = ['Mon','Tues','Wed','Thurs','Fri','Sat','Sun']defget_day_of_week(index):returndays[index.dayofweek]daily["day_of_week"] = daily.index.map(get_day_of_week)daily.head(10)day_count = daily.groupby("day_of_week").total.sum().plot(kind ='bar')
数据关系图形
这个结果可以了解,周一到周五人们使用自行车的情况最多,周六和周末相对减少,看来大部分市民是用自行车来上班的。到目前为止,影响选择自行车出行的方式已经有白昼的时长、星期几这两个因素了,下面我们根据简友说的天气变化的影响
6:天气变化跟骑行量的数据关系
由于没有天气变化的数据文件,只能根据github上的数据来做下模拟分析
数据导入
weather = pd.read_csv(r"D:\working\windows\bikeAnalyze\SeattleBike\SeaTacWeather.csv",index_col="DATE",parse_dates = True,usecols=[2,3,6,7]) #读入天气文件
weather.sample(n = 10) #随机查看10行数据
显示图表
#对温度和降雨量进行单位转化,转化到我们日常生活中的单位
weather['TMIN'] =0.18* weather['TMIN'] +32
weather['TMAX'] =0.18* weather['TMAX'] +32
weather['PRCP'] /=254weather.TMIN.plot()#绘出每日最高温随着时间的变化weather.TMAX.plot()#绘出每日最低温随着时间的变化
数据关系图形
重新计算采样方式
#按照每周进行时间规划,选出每周温度最大的和温度最小的,可视化weather.TMIN.resample('w',how='min').plot()
weather.TMAX.resample('w',how='max').plot()
plt.xlabel("日期")
plt.ylabel("每周的最大气温和最小气温")
重新采样图形关系图
绿色代表每天的最高气温
蓝色代表每天的最低气温
我的编译环境识别不了中文,中文显示乱码
7:天气、白昼时长、星期几这三个变量,对自行车骑行的变化影响以及根据这三个变量去预测自行车的数目变化。
算法分析
daily_1 =daily
fori inrange(7):
daily_1[days[i]]= (daily_1.index.dayofweek == i).astype(float)
daily_1.head(10)
结构关系显示图表
根据简友的说明,可以发现:“day_of_week”转化成了7列,而这7列的值都是数值,因此我们利用“day_of_hours”和['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun']总共八个变量去预测自行车总数的变化。
计算误差
我们截图上发现,我们利用两个给出的信息,分别是星期几和白昼时长,我们就可以判断,这个某一天的自行车总数,平均误差在13102辆。
所以说我们的计算方式在存在相当大的问题。
分析原因:1:白昼时间的计算方式
2:剔除节假日的较大变化数据
3:考虑其他变量影响
8:降水量、温度、白昼时长、和星期几等多数据对自行车骑行量的分析
计算方式:
daily_new = daily_1.join(weather,how ='inner')##对daily 和 weather按照index,进行合并#使用合并后的数据进行计算:包括周几,每天白昼有几个小时,温度的最大和最小值,降雨量作为自变量去预测每天的自行车总数
columns = days + ['day_of_hours','TMIN','TMAX','PRCP']
X = daily_new[columns]
y= daily_new['total']
clf = LinearRegression().fit(X,y)
daily_new['overall_trend'] = clf.predict(X)
发现执行之后,发现一些错误。
根据简友说的,降雨量对自行车骑行总数的影响
ind = columns.index('PRCP')
slope = clf.coef_[ind]
print(slope)
9:
使用sklearn.linear_model.LinearRegression进行线性回归
应用场景:1) 预测房子价格
2) 预测下周哪个电视节目会有更多的观众
3) 替换数据集中的缺失值
结论,根据简友的说明,重复这些代码也是能够完全重现以上的这些结果的!
本人也亲测过可以使用,但是用我的数据文件就会出错,明天在好好查查原因。
虽然最后出现一点问题,但是关系不大,当做学习,明天继续把下一篇进阶文章看完。感谢简友作者的文章,学习了!
人生苦短,我用python
希望在简友圈跟大家学习交流!