转载请在文章起始处注明出处,谢谢。
一、项目背景及目的
kaggle有个共享单车的分析项目,提供一份2011到2012年数据。这份数据包括共享单车使用时间、季节、天气、温度、湿度等信息,详细特征如下:
datetime - hourly date + timestamp
season - 1 = spring, 2 = summer, 3 = fall, 4 = winter
holiday - whether the day is considered a holiday
workingday - whether the day is neither a weekend nor holiday
weather - 1: Clear, Few clouds, Partly cloudy, Partly cloudy
2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
temp - temperature in Celsius
atemp - "feels like" temperature in Celsius
humidity - relative humidity
windspeed - wind speed
casual - number of non-registered user rentals initiated
registered - number of registered user rentals initiated
count - number of total rentals
这次分析的目的是探索共享单车租用情况与哪些影响因素有关。
二、项目流程
本次分析采用Anaconda +jupyter Notebook组合进行。
1、数据获取
可登陆kaggle共享单车项目,在"Data"一栏下载test.csv,为了方便后续分析,重命名为Bike.csv。
让我们导入所需包,设置jupyter,方便绘图。
2、数据清洗
让我们初探数据:
可见,这份数据有10886条,一共12个column,并且数据非常完整,没有缺失。再来看看数据长啥样:
到此,数据清洗阶段完成,下面进入数据分析阶段。
3、数据分析
我们看看温度、湿度、风速、及注册情况对共享单单车使用的影响。
可见,count与temp、atemp是正相关,不过按照常识一般温度太高或太低,人们一般不会使用共享单车;
count与registered的相关度要比casual高,registered、casual与count是正相关;
count与humidity负相关,说明湿度太大,单车使用次数会减少;
count与windspeed关联度不太明显。
下面我们按照季节、时间段、温度湿度、周几、天气情况来分别分析:
首先看看不同季节、时间段,共享单车使用情况。
可以看出,共享单车在夏天、秋天使用最多,冬天要比春天使用次数多,春天使用次数明显低于其余三个季节。从第三张图可以看出,早上8点左右及晚上17点左右,是共享单车使用高峰期。
接下来看一下温度湿度对共享单车使用有什么影响:
可以看出,湿度在40~60,温度在20℃左右,共享单车使用最多。
再来看看天气情况对使用的影响:
不出意外,天气越好,单车使用越多,同时可以看出,夏天时使用情况有一个明显的上升,冬天时下降明显。
最后,来看看周几单车使用情况分布:
可以看出工作日两个高峰时刻分别在早上8点左右及晚上17点左右,周六日则集中在12点到17点这个区间。
三、分析结论
从上面分析情况可知:
1、共享单车秋天使用次数最多,其次时夏天,春天明显少于其他季节;
2、工作日早晚高峰(早8点、晚17点)使用最多,周六日主要集中在12点到17点;
3、温度在20℃左右,湿度在40~60,共享单车使用最多;
4、天气越好,单车使用越多。
综上所述:
对于共享单车运营公司,要在夏天、秋天、早晚高峰等需求量大的阶段,提供充足的单车,提高运营效率;在春天、坏天气等需求低谷阶段,一方面可以通过一些活动提高客户使用率,另一方面可以将重点放到车辆进行保养或更新换代。
对于普通用户来说,要注意避开高峰阶段,合理选择交通工具。比如工作日可以早点出发,或乘坐公共交通等。