智慧城市相关的计算问题,是最近国内外研究的热点。根据最近查阅的一些资料,对当前存在的一些难点做了梳理,主要参考了京东金融郑宇老师的PPT及论文资料。
数据稀疏性
如果用稀疏的数据求到全局的数据,与采样的问题类似。与采样问题不一样的是。例:如果只有Facebook用户的位置数据,如何反求城市人群的空间移动行为?空气质量的监测点数量有限,如何用有限的点空气质量数据,感知其他区域的空气质量?除了常见的线性插值的方法,是否还有其他方法呢?
数据丢失
在数据稀疏的基础上,如果因为传感器的设备故障导致的数据丢失问题。例:空气质量检测点异常,导致某些时段的数据丢失。补全数据的工作是非常有意义的,因为当前机器学习的算法需要大量的时序完整数据,如果数据有丢失,预测的准确性会有问题。此外,如果数据可以补全,也便于数据的可视化呈现及检索。如果出现了缺失,是用空间临近的数据补全还是用时间临近的数据补全?IJCAI2016的一篇论文提出了一些解决方案:ST-MVL: Filling Missing Values in Geo-Sensory Time Series Data。是否还存在其他的方法来做数据补全?
最优化资源分配
虽然IoT的越来越火热,各个城市建设的差距依然存在,如果用有限的资源获得最大的收益,是智慧城市计算中的一个非常有意义的研究问题。例:摩拜单车如何投放、在城市中如何放置充电桩、如何放置空气质量监测设备、在高速公路那些路途投放应急拖车。这些都是NP难的问题。而且这些问题往往都是开放式的,没有Ground Truth。
最后
人机学习是当前研究的热点。类似为专家设计的可视分析工作。提出机器学习算法的人,往往不是某个行业领域的专家,所设计的算法难免与实际的应用场景不符。如果能为领域专家提供交互式的工具,根据专家的反馈,立马得出改进的算法结果,将有助于解决实际的问题。