JUST技术:基于时空孪生神经网络的轨迹识别

JUST团队-任慧敏 JUST时空数据

        轨迹识别问题旨在验证传入的轨迹是否是由所要求的人员产生, 即给定一组单独的人员历史轨迹(例如行人,出租车司机)以及由特定人员生成 的一组新轨迹,判定两组轨迹是否由同一个人员生成。这个问题在许多实际应用中都很重要,例如出租车驾驶人员身份认证、汽车保险公司风险分析以及危险驾驶识别等。轨迹识别的现有工作除了需要轨迹数据之外,还需要其他来源的数据,如传感器、摄像头等,但这些数据无法普遍获得且成本较高。此外,目前的工作只能局限于已有的人员身份识别,无法扩展至未经训练的人员。为了应对这些挑战,在这项工作中,我们首次尝试通过提出一种新颖而有效的框架时空孪生网络(ST-SiameseNet),仅从观察到的轨迹数据匹配人员身份。对于每个人员,我们从他们的轨迹中提取特征,来预测每个人轨迹的相似性。

一、问题背景

线上打车在现代社会越来越多地被应用,甚至说成为主流。根据纽约出租车协会数据显示(图1),截止2020年6月,纽约市每天有超过10万人次使用打车服务,线上打车服务占比超过70%。然而,随着行业从业人员的增加,从业人员就显得鱼龙混杂,经常会有安全事故被报道(图2)。尽管现在的平台会对司机进行实名认证,但仍会发生李代桃僵的事情。

图1 打车服务各类型占比
图2 线上打车服务安全事故报道案例

如图3所示,除了出租车安全认证之外,这项技术在汽车的保险行业也有着发展前景,比如投保人与肇事者是否是同一人,或者该驾驶员是否有危险驾驶行为,例如酒驾,等等。于是我们提出了“Human Mobility Signature Identification”,即通过轨迹信息的挖掘,进而分析驾驶人的驾驶行为,最终判断驾驶人是否是同一人。

图3 驾驶人员身份识别应用场景

驾驶人员身份识别问题有很多相关工作,然而前期工作仍存在诸多问题,1)很多工作在识别司机的身份时,除GPS轨迹之外还需要额外的数据,例如车载的摄像机,方向盘和刹车的传感器等,这类数据成本高昂,很难普遍获取。2)一些工作利用传统的聚类或者多分类模型去识别司机身份,但这类方法识别数量有限,无法满足现实中识别百万级司机身份的需要。3)就我们所知,前期工作普遍存在泛化性不足的问题,模型面对训练集外的司机往往束手无策。

基于以上问题,我们提出了基于时空孪生神经网络的轨迹识别模型。该模型只依赖于GPS轨迹信息,可处理大规模驾驶员的识别问题,并且有较强的泛化能力,可识别未在训练集出现的驾驶员身份。

二、背景知识

首先,我们介绍一些相关的背景知识。我们提出了基于时空孪生神经网络的轨迹识别模型(ST-SiameseNet),那么什么是Siamese Network呢?Siamese是“孪生,连体”的意思,SiameseNetwork就如同字面的意思,是孪生神经网络,这一过程是通过共享权重实现的。将两个实体输入到同一个神经网络中,随后映射到新的空间,从而计算两个输入的相似度,从而判断二者是否属于同一个实体。基本模型框架如图4所示:

图4 Siamese Network

之所以将孪生神经网络引用至我们的模型,是因为其适合用于大规模实体的相似度判断。其学习的内容是实体间的相似度,因此未被训练过的数据仍然可以被拿来判断是否相似。

孪生神经网络已经解决了上述的后两个问题,即分类数量和泛化性。那么接下来就要解决第一个问题,数据成本。我们采用了易于获得的GPS行驶轨迹作为数据源。每个GPS点由经纬度和时间构成,一条轨迹则由一组GPS点构成。轨迹数据具有很强的时序性,因此我们引入LSTM来学习轨迹特征。为进一步挖掘轨迹数据的特征,我们从GPS数据中提取出司机的个人偏好,如最经常出现的位置、出发及结束时间、平均路程长度等等。与此同时,我们根据驾驶轨迹的状态,将轨迹分为了两类,例如出租车轨迹可分为载客轨迹与空车轨迹,私家车轨迹可分为上下班通勤以及日常生活轨迹等。

三、解决方案

在模型实现中,我们将出租车司机身份识别作为应用。GPS数据采自于2016年7月深圳出租车行驶记录,我们共筛选出2197位司机在10个工作日的GPS数据。

图5 模型流程图

图5展示了我们模型的基本流程。首先,我们将获得的GPS数据转化为一个个对应的格子,使得经纬度信息转化为更适合计算机处理的x,y坐标及对应的时间ID。而后,我们根据出租车是否载客将出租车轨迹分为载客轨迹与空车轨迹,并且从轨迹中提取了司机的个人偏好,如经常出现的位置、出车收车时间、平均寻客路程及时间、平均载客路程及时间、每日接单数量等。

为识别出租车司机身份,需要对一名司机两天的轨迹或者两名司机一天的轨迹进行比较,用以判断这些轨迹是否产生于同一个人。为此,我们选取了一个工作日内的5条空车轨迹和5条载客轨迹,这个数据的选择覆盖了所收集的司机的情况。图6显示了ST-SiameseNet模型具体框架:

图6 ST-SiameseNet模型框架图

从整体来看,模型目的在于判断两天的轨迹是否属于同一个司机,所以在模型输入中等概率的选择同一个司机不同天,或者不同司机不同天的数据,即输入数据的正负样本概率相同。

区别于传统孪生神经网络只共享一个神经网络,我们将其扩展至共享三个神经网络,即LSTMD,LSTMs和FCN。前两个模块分别学习载客轨迹和空车轨迹特征,FCN模块学习司机行为偏好。由此,我们得到6个embedding对应模型的6个输入。最后,通过embeddings后经由全卷积网络获得非相似度。其中数值越接近1,不是同一人的可能性越大。

四、实验结果

我们在2197名司机10天的轨迹数据上验证了方法的有效性。表1在对比不同模型中,我们采用了500位司机的前5天作为训练数据,另外的197位司机的后5天作为测试数据,保证了数据的充足性和独立性。

表1 不同模型实验效果验证表

对于SVM,由于无法输入轨迹信息,所以输入数据为司机个人偏好特征信息,经过绝对值相减后输入SVM,获得非相似度。对于FNN,区别在于是否包含个人偏好特征,两个输入GPS数据连接成一个大的数据输入FCN中,获得非相似度。这个对比旨在获取神经网络在提取特征方面的能力。对于Naïve Siamese,与我们提出的模型相比,只有一个FCN网络,而输入的GPS数据首尾相连组成一个长数据,通过FCN和embeddings后得到非相似度。

最后对比结果可以看到,我们提出的模型结构在各个指标上都有着优异的表现。而在同类模型的对比中,加入个人偏好的模型要比不加入偏好的模型性能表现要好,这也证明了除去轨迹特征外,司机的个人偏好对于相似度识别也有贡献。

此外,我们对模型泛化能力,也进行了轨迹天数与司机数量两方面的测试。图7是固定了500位司机,以工作日为变量的结果;图8是固定为5天的工作量,以司机数量为变量的结果。以图7为例,所有的数据集总共包含697位司机10个工作日的轨迹数据,其中500名司机作为训练集,197名司机为验证和测试集,假设训练集采用了头3天的数据做训练,那么验证集和测试集则使用剩余的后7天作为测试,以此类推。图8逻辑同理。

  图7 500名司机工作日实验效果 
图8 5天工作量司机数量实验效果

从上面的两幅图可以看出,随着训练天数和训练人数的增加,模型的泛化能力得到了提升,有效的避免了过拟合的问题。而且模型性能的拐点分别出现在5天的训练天数和500位司机的训练数量,之后的测试集结果增长不明显。说明500位司机和5个工作日的训练数量就能够获得较好性能的模型。

我们还进一步对比了轨迹运行模式与司机偏好特征对模型的影响。首先对比了运行模式对模型的影响,图9展示了不同运行模式下的测试准确率,粉色线包含了空车模式和载客模式,灰线仅包含了空车模式,黄线仅包含了载客模式。可以看出即使只包含有单一的运行模式,在一定程度上能够判断轨迹是否属于同一位司机。空车模式轨迹的准确率普遍高于载客模式轨迹的准确率,这与人的直觉是一致的,因为载客时司机无法选择目的地,而空车时不同司机会有不同的策略寻找乘客,因此可以更好的体现司机的特征。当两种运行模型同时作用于模型时,我们得到了最好的结果(粉色线)。与图7图8趋势一致,随着司机数量及训练天数的增加,模型的测试准确率有了提高。

图9 运行模式对比

图10对比了司机个人偏好在模型训练中的作用。红色线展示了轨迹数据及个人偏好作为输入时的测试集准确率,棕色线展示了只有轨迹数据的测试准确率,紫色线代表只有个人偏好特征作为输入的测试准确率。同图7图8趋势一致,随着司机数量及训练天数的增加,模型的测试准确率有了提高。在对比三种输入中,我们发现如果只使用司机的个人偏好特征作为输入,模型得到了较差的结果,这说明高度抽象的特征虽然在一定程度上可以识别司机,但也损失了很多其他有效信息。而单纯使用轨迹数据作为输入(棕色线),其准确率仍低于我们的模型(红色线),很可能是因为模型在处理轨迹数据时,很难获取全局的统计信息,比如平均寻客路程与时间,平均载客路程及时间等。当轨迹信息与个人偏好特征结合起来时,我们的模型得到了最优结果。

图10 个人偏好特征对比


论文原文链接:https://www.aminer.cn/pub/5f03f3b611dc830562232050?conf=kdd2020

论文源码:https://github.com/huiminren/ST-SiameseNet

参考文献:

[1] Taxi, Uber, andLyft Usage in New York City. http://toddwschneider.com/posts/taxi-uber-lyft-usage-new-york-city/.

[2] A. MARSHALL. Uber’s New Features Put aFocus on Rider Safety . https://www.wired.com/story/ubers-new-features-focus-rider-safety/, 09 2019 .

鸣谢:

AITIME论道对论文解析的初次整理

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,612评论 5 471
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,345评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,625评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,022评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,974评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,227评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,688评论 3 392
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,358评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,490评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,402评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,446评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,126评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,721评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,802评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,013评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,504评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,080评论 2 341