1. 从大数据走向学习时代
2.
1)迁移类信息(加入时间维度)
当分布信息加入时间维度后,即转而变为迁移信息。理论上,凡是分布信息均可增设时间维度,地产价格的演变等也属于该范畴。迁移信息的作用通常是反应城市的空间联系度。该类研究在目前来看最具有市场价值与普及使用价值。遥感信息、地产信息、轨迹分布、签到信息、各类地图POI信息等。
2)分布类信息:
该类数据主要指独立的个体信息数据,即指在特定时空内某一个客观特征基于大量样本采集之后呈现的空间分布,且研究对象可人可物。分布信息是开展城市研究的基础,为后两种信息的发展奠定了基础,并提供对照。分布类型数据是大数据之于城市研究的基础。签到信息、手机信令、公交卡数据、出租车轨迹数据、TD数据。
3)评价类信息(加入主观维度)
在分部信息中,将客观信息替换为主观评价类信息,该信息则转变为大评价信息。它与大分布信息的区别在于以人为本的出发点,反映了个人对于城市空间的认知与感受。考虑到不同的个体对于城市客体会产生主观的价值判断,因此这类信息的复杂度最高,但同时挖掘潜力也最大。点评打分信息、语义评价信息、城市视觉意象信息分析。
一.大数据思维
(分布类信息)POI,商户店铺信息,静止信息()
(迁移类信息)用user ID去定位每一个人的信息,将微博的定位信息提取出来,切线连接强,或者是法线连接强
(迁移类)交通卡刷卡数据,processing,pulse of boston taxi
(评价类)情感语义分析 google地图的照片,如何去研究图像的识别
(评价类)用点评去分析整个城市交通区的负荷等级
分布:基础,用于判断整体格局
迁移:实用型价值很高,比如说airbnb,人流分析,现金流分析(结构性分析,动态监测)
评价:以人为本的设计相关,城市感知认识有关
分布:可买可挖,统计文件一般也能获得
迁移:基本为封闭的数据(流的信息)
评价:存有一定的开放数据
二. 迁移类信息事例
基于LBSN数据的全国人口分布与流动研究
1)腾讯LBSN大数据(location-based social network)
2)全国范围社交数据研究
3)县级单元为经度
4)以流动数据为主要研究对象
5)用于解决城市出行的拥挤问题
数据源:QQ位置数据
公众端:城市热力图服务
静态和动态的人流信息
1)静态人口分布信息
县级单元常住人口分布数据
县级单元四时段累计人口分布数据
10km四时段网络人口分布数据
网格包含性别、年龄段分区等统计数据
县级单元数据以1km网格基础数据为基准
2)动态人口流动信息
县级单元四时段人口流动数据(工作日、周末、国庆、春节)结合单元常住人口数据进行判别
3)动态消息流动信息
县级单元四时段消息流动数据
中部塌陷地区(劳动力输出,人口流出)
钻石结构(跨省流动,省与省之间的关系)
现状分析,城市统计一定是静止的,没办法,拿到完美的数据
各城市的流动对比
各城市群流动对比
人流.经济流,自然流,政治导向
城市群之间的关联度
基于社团发现模型(community detection)城市社团,脱离空间地理信息,基于人流联系度的城市自组织模式的发现研究。整体上,与行政区划有着高度一致性局部存在一些小型的自组织单元城市连绵与行政区划的划分问题。
典型的单核集聚性
典型的多核集聚性
多心分散型
paycore(首位度,)
*城市夜光地图(NASAS),ENVI
从大数据到学习时代
1. 分布类信息,迁移类信息,评价类信息
2. 研究出租车的轨迹数据(pulse of boston taxi)
3.微博签到信息的,user id
4. 评价类信息,语言类评价和图像类评价
5. 情感语义分析,fliker,parerama
6. 分布(简单),迁移(中间)和评价(最难)。
7. 分布:用于判断整体格局。开篇布局的第一张图。迁移:结构性分析、动态监测。流的信息难以获得,必须要和大的厂商或者机构有一定的协作。评价:城市感知认识、人性化设计。
*图像识别照片,得出一系列信息
*
8. 迁移
1)基于LBSN大数据的全国人口分布与流动研究
中国城市规划设计研究院和腾讯云的合作
1.腾讯LBSN大数据
2. 全国范围社交数据研究
3. 县级单元为经度
4. 以流动数据为主要研究对象。
LBSN: Location based social network,更偏向于社交,偏向于QQ移动端的数据,月活用户六亿,在上海出现踩踏事故的时候,成立的小组。
所以呢,在这个项目上面,数据源为QQ位置数据。公众端是,城市热力图服务。
需要:静态人口分布信息,十公里网格全国制覆盖信息。动态人口分布信息,就是用的是四个时段,工作日,周末,国庆,春节。
*年龄结构的考虑,统计的口径也是不一样。年龄结构差异性,微信,30岁左右。QQ,差距个五六岁。两个圆圈表示的就是人口劳动力流失的信息在里面。
*跨省流动的类似信息,都会反映出来。
*这种研究,是为了啥:在做一个现状分析。
*研究出现得多,可以去做个校核的工作。
*城市群,有整体流出流入的关系,和内部关系。
*不同时间段会有不同的结构出现。
*珠三角,内部最高
*可以用城市群,去算关联度,流过来的人和
*样本会有个数据倾斜
*单中心结构,和多核,网状结构
*k-core, 首位度
*吸血型城市
*人工智能
*深度学习
*streetTalk
*基于城市影响感知评分得到的慢行地图
*LBSN,人口流动,只是城市群落的一个维度,经济流研究(企业的总部分支机构),安全提,卫生提,还有旅游方面数据。校核的差异性,是可以理解的范围内。
*数据倾斜,怎么去解决呢?
*SODA安全感知地图,
*宏规,控规,修规
*封闭数据价格不大
*people.csail.mit.edu/bzhou
*zhoutongwang.com