多目标跟踪MOT16数据集和评价指标

最近要做一个有关多目标跟踪的项目，刚刚接触MOT，所以先来了解一下MOT16这个比较经典的数据集以及比较经典的评价标准。

1. 多目标跟踪

多目标跟踪处理的对象是视频，从视频的第一帧到最后一帧，里边有多个目标在不断运动。多目标跟踪的目的就是将每个目标和其他目标进行区分开来，具体方法是给每个目标分配一个ID，并记录他们的轨迹。

已开始接触，可能觉得直接将目标检测的算法应用在视频的每一帧就可以完成这个任务了。实际上，目标检测的效果是很不稳定的，其实最大的区别在于，仅仅使用目标检测无法给对象分配ID，并且跟踪能够优化整个跟踪过程，能让目标框更加稳定。

多目标跟踪中一个比较经典的和深度学习结合比较好的方法就是Detection Based Tracking，对前后两帧进行目标检测检测，然后根据得到的前后两帧的所有目标进行匹配，从而维持ID。初学者接触比较多的就是SORT和Deep SORT算法了。

2. MOT16数据集

MOT16数据集是在2016年提出来的用于衡量多目标跟踪检测和跟踪方法标准的数据集，专门用于行人跟踪。官网地址是：https://motchallenge.net/

从官网下载的数据是按照以下的文件结构进行组织的：

- MOT16
    - train
        - MOT16-02
            - det
                - det.txt
            - gt
                - gt.txt
            - img1
            - seqinfo.init
        - MOT16-04
        - MOT16-05
        - MOT16-09
        - MOT16-10
        - MOT16-11
        - MOT16-13
    - test
        - MOT16-01
            - det
                - det.txt
            - img1
            - seqinfo.ini
        - MOT16-03
        - MOT16-06
        - MOT16-07
        - MOT16-08
        - MOT16-12
        - MOT16-14

在MOT16数据集中，是包含了检测得到的框的，这样是可以免去目标检测这个部分，提供统一的目标检测框以后，然后可以比较目标跟踪更关注的部分，而不用在花费精力在目标检测上。

seqinfo.ini

在每个子文件夹中都有这个，主要用于说明这个文件的一些信息，比如长度，帧率，图片的长和宽，图片的后缀名。

[Sequence]
name=MOT16-09
imDir=img1
frameRate=30
seqLength=525
imWidth=1920
imHeight=1080
imExt=.jpg

det.txt

这个文件中存储了图片的检测框的信息(检测得到的信息文件)，部分内容展示如下：

1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1
1,-1,571.03,402.13,104.56,315.68,1.5028,-1,-1,-1
1,-1,650.8,455.86,63.98,193.94,0.33276,-1,-1,-1
1,-1,721.23,446.86,41.871,127.61,0.27401,-1,-1,-1
2,-1,460.48,442.1,90.896,274.69,0.26749,-1,-1,-1
2,-1,643.66,461.78,59.629,180.89,0.18023,-1,-1,-1
2,-1,1494.4,408.29,112.14,338.41,0.16075,-1,-1,-1
2,-1,572.83,364.89,128.96,388.88,-0.011851,-1,-1,-1
3,-1,1359.1,413.27,120.26,362.77,2.3387,-1,-1,-1
3,-1,571.03,402.13,104.56,315.68,0.79923,-1,-1,-1
3,-1,1482.5,390.88,128.96,388.88,0.35271,-1,-1,-1
...
600,-1,708.37,476.87,20.435,63.306,-0.1483,-1,-1,-1
600,-1,421.14,446.86,41.871,127.61,-0.19971,-1,-1,-1
600,-1,613.25,412.69,51.78,157.34,-0.38627,-1,-1,-1
600,-1,375.27,454.06,48.246,146.74,-0.42444,-1,-1,-1

从左到右分别代表：

frame: 第几帧图片
id: 这个检测框分配的id，在这里都是-1代表没有id信息
bbox(四位): 分别是左上角坐标和长宽
conf：这个bbox包含物体的置信度，可以看到并不是传统意义的0-1，分数越高代表置信度越高
MOT3D(x,y,z): 是在MOT3D中使用到的内容，这里关心的是MOT2D，所以都设置为-1

可以看出以上内容主要提供的和目标检测的信息没有区别，所以也在一定程度上可以用于检测器的训练。

gt.txt

这个文件只有train的子文件夹中有，test中没有，其中内容的格式和det.txt有一些类似，部分内容如下：

1,1,912,484,97,109,0,7,1
2,1,912,484,97,109,0,7,1
3,1,912,484,97,109,0,7,1
...
136,1,912,484,97,109,0,7,0.93878
137,1,912,484,97,109,0,7,0.86735
138,1,912,484,97,109,0,7,0.79592
139,1,912,484,97,109,0,7,0.72449
140,1,912,484,97,109,0,7,0.65306
...
338,1,912,484,97,109,0,7,0
339,1,912,484,97,109,0,7,0
340,1,912,484,97,109,0,7,0
341,1,912,484,97,109,0,7,0
...
599,1,912,484,97,109,0,7,1
600,1,912,484,97,109,0,7,1

1,2,1338,418,167,379,1,1,1
2,2,1342,417,168,380,1,1,1
3,2,1346,417,170,380,1,1,1
...

从左到右分别是：

frame: 第几帧图片
ID:也就是轨迹的ID，可以看出gt里边是按照轨迹的ID号进行排序的
bbox: 分别是左上角坐标和长宽
是否忽略：0代表忽略
classes:目标的类别个数（这里是驾驶场景包括12个类别），7代表的是静止的人。

第8个类代表错检，9-11代表被遮挡的类别

image

最后一个代表目标运动时被其他目标包含、覆盖、边缘裁剪的情况。

总结：

train中含有的标注信息主要来自det.txt和gt.txt。test中只含有det.txt。
det.txt含有的有用信息有：frame, bbox, conf
gt.txt含有的有用信息有：frame,bbox, conf, id, class
output.txt(使用deepsort得到的文件)中含有的有用信息有：frame,bbox, id

3. MOT中的评价指标

image

评价出发点：

所有出现的目标都要及时能够找到；
目标位置要尽可能与真实目标位置一致；
每个目标都应该被分配一个独一无二的ID，并且该目标分配的这个ID在整个序列中保持不变。

评价指标数学模型：
评价过程的步骤：

建立目标与假设最优间的最优一一对应关系，称为correspondence
对所有的correspondence，计算位置偏移误差
累积结构误差 a. 计算漏检数 b. 计算虚警数（不存在目标却判断为目标） c. 跟踪目标发生跳变的次数

image

MOTA(Multiple Object Tracking Accuracy)

$MOTA=1-\frac{\sum(FN+FP+IDSW)}{\sum GT}\in (-\infty,1]$

FN为False Negative, FP为False Positve, IDSW为ID Switch, GT是Ground Truth物体的数量。

MOTA主要考虑的是tracking中所有对象匹配错误，主要是FP,FN,IDs. MOTA给出的是非常直观的衡量跟踪其在检测物体和保持轨迹时的性能，与目标检测精度无关。

MOTA取值小于100，但是当跟踪器产生的错误超过了场景中的物体，MOTA可以变为负数。

ps: MOTA&MOTP是计算所有帧相关指标后再进行平均的，不是计算每帧的rate然后进行rate平均。

MOTP(Multiple Object Tracking Precision)

$MOTP=\frac{\sum_{t,i}d_{t,i}}{\sum_tc_t}$

d为检测目标 $i$ 和给它分配的ground truth之间在所有帧中的平均度量距离，在这里是使用bonding box的overlap rate来进行度量（在这里MOTP是越大越好，但对于使用欧氏距离进行度量的就是MOTP越小越好，这主要取决于度量距离d的定义方式）；而c为在当前帧匹配成功的数目。MOTP主要量化检测器的定位精度，几乎不包含与跟踪器实际性能相关的信息。

MT(Mostly Tracked)

满足Ground Truth至少在80%的时间内都匹配成功的track，在所有追踪目标中所占的比例。注意这里的MT和ML与当前track的ID是否发生变化无关，只要Ground Truth与目标匹配上即可。

ML (Mostly Lost)

满足Ground Truth在小于20%的时间内匹配成功的track，在所有追踪目标中所占的比例。

ID Switch

Ground Truth所分配的ID发生变化的次数，如图1中(a)所示。

image

FM (Fragmentation)

FM计算的是跟踪有多少次被打断（既Ground Truth的track没有被匹配上），换句话说每当轨迹将其状态从跟踪状态改变为未跟踪状态，并且在稍后的时间点跟踪相同的轨迹时，就会对FM进行计数。此处需要注意的是，FM计数时要求ground truth的状态需要满足：tracked->untracked->tracked，如图1中(b)所示，而(c)中的不算FM。需要注意的是，FM与ID是否发生变化无关。

FP (False Positive)

当前帧预测的track和detection没有匹配上，将错误预测的track点称为FP，如图1所示。是否匹配成功与匹配时所设置的阈值有关。

FN (False Negative)

当前帧预测的track和detection没有匹配上，将未被匹配的ground truth点称为FN（也可以称为Miss）

ID scores

MOTA的主要问题是仅仅考虑跟踪器出错的次数，但是有一些场景（比如航空场景）更加关注一个跟踪器是否尽可能长的跟踪一个目标。这个问题功过构建二分图来解决，主要计算对象是IDTP、IDFP、IDFN。

IDP:

$IDP=\frac{IDTP}{IDTP+IDFP}$

IDR:

$IDR=\frac{IDTP}{IDTP+IDFN}$

IDF1: 正确识别的检测与真实数和计算检测的平均数之比

$IDF1=\frac{2IDTP}{2IDTP+IDFP+IDFN}$

4. 参考资料

Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics.

https://motchallenge.net/

https://blog.csdn.net/u012477435/article/details/104158573

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342

多目标跟踪MOT16数据集和评价指标

1. 多目标跟踪

2. MOT16数据集

3. MOT中的评价指标

4. 参考资料

推荐阅读更多精彩内容