最近在学习数据分析,所以在数据分析的圣坛Kaggle找了一些新手案例练习,记录以备后续回顾,如果能帮助他人,再好不过。
(1)问题描述&问题定义
基于乘客上车地点信息(经度,纬度)和乘客下车地点信息,预测出租车票价;
简单考虑,出租车的票价与乘坐的里程成线性关系,即里程越大,票价越高,可以考虑使用简单线性模型。
问题的另一个特点是数据量很大,可以考虑使用其中一部分数据,也可以考虑使用适合大数据量的算法。
该问题研究的是一个简单的回归问题,基于历史乘坐里程和票价数据,预测当前里程下的票价。
此类问题模型可用于房价预测,旅游景点人数预测等。
(2)准备数据
1)导入原始数据
由于这里采用简单的线性回归模型,不适宜大数据量的数据,所以这里只使用原始数据集上的一部分数据,取前1000000条数据作为原始的训练数据。
2) 数据预处理,包括剔除缺失数据和异常数据
缺失数据值的数据样本不具备参考性,故剔除
从实际来说,一个城市的大小是有限的,所以上车地点和下车地点之间的距离应该合理。
(3)训练模型
(4)总结
该问题用简单线性模型,基于训练数据和测试数据,实现了对测试数据的出租车票价预测。
可以考虑采用非线性模型,增加数据量,特征矩阵的选择,等方面提高预测的精度。