专访微软研究院张正友：从“张氏标定法”到人机交互，20年视觉技术的探索

摘要：张正友博士，是世界著名的计算机视觉和多媒体技术的专家，ACM Fellow，IEEE Fellow。他在立体视觉、三维重建、运动分析、图像配准、摄像机自标定等方面都有开创性的贡献。

编者按：为期四天的2017杭州云栖大会（10月11日-14日）将再度在杭州云栖小镇起航，作为全球最具影响力的科技展会之一，本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。过去一个多月，云栖社区对大会嘉宾做一系列专访（关注“云栖大会”社区公众号了解更多大会信息）。本期我们采访的是ACM Fellow，IEEE Fellow，美国微软研究院首席研究员张正友，他将在云栖大会·视觉云计算生态峰会上分享Emotionally Intelligent Vision System，探讨从终端到云端的情感智能视觉系统。

张正友博士，是世界著名的计算机视觉和多媒体技术的专家，ACM Fellow，IEEE Fellow。他在立体视觉、三维重建、运动分析、图像配准、摄像机自标定等方面都有开创性的贡献。

张正友带领的微软研究院视觉团队在学术研究上做了大量的工作，除了在顶尖会议（比如CVPR、ICCV、ACM Multimedia、ICME）上发表了大量文章和几部专著，而且在微软很多产品里都有团队的贡献，比如Windows、Office、Xbox、Kinect、Skype for Business、Office Lens等等，这支团队在微软内部的重要性不言而喻。

故事从“张氏标定法”谈起

1998年，初到微软研究院的张正友发表了一篇名为《A Flexible New Technique for Camera Calibration》的论文，也正是这篇论文进一步奠定了他在计算机视觉领域的地位。文中提出的基于移动平面模板的相机标定方法，就是业界普遍采用的“张氏标定法”。

“张氏标定法是我1998年加入微软做的第一个项目”，张正友告诉云栖社区。

摄像机标定是三维计算机视觉的第一步，所以必须知道摄像机的参数才能从摄像机拍摄的二维图像里恢复出周围场景的三维信息。“那时标定都是用一个非常精确制造的三维标定物，比如印有特殊标志的正方体，贵且不实用，我这才发明了用二维标定板做摄像机标定。”他回忆道。

由于二维标定板的制作非常容易，一般的打印机就可以打印出来，因此这一方法得到了广泛应用。（这里有一篇短文分享了张氏标定法发明的经过，感兴趣的朋友可以看看。）

有趣的是，尽管张正友早在二十年前就发表了《A Flexible New Technique for Camera Calibration》这篇论文，但直到2006年，他本人才知道论文提到的方法被业界赋予了“张氏标定法”的名称。

“因为对人机交互感兴趣，我认为除了计算机视觉，语音识别应该必不可少，所以我在2001年至2006年转入语音识别研究团队，专注语音增强和说话人识别研究，没有去参加任何计算机视觉会议。2006年我开始带领现在的多媒体团队同时做语音和视觉，也开始重新参加计算机视觉的会议，这时我才知道我发明的标定法被称为了张氏标定法。”

“我的研究团队在近二十年的研究工作中主要围绕着用计算机视觉来理解人的形态和行为去帮助人和人之间的沟通及人和机器的交互，最初是通过几何和物理模型对人的形态和行为建模，然后加入了机器学习。”

张正友表示，从1999年开始就提出了model-based modeling方法对人脸三维建模，也就是通过采集大量的人脸三维数据通过机器学习建立参数化的三维模型.因为这个三维模型只需要很少的人脸形状和动态参数，针对某个特定人，仅需少量的数据就可以估计出这个人的各个参数，即使图像分别率低、光照条件差，算法依然拥有很好的鲁棒性。事实上，此后很多人都在采用类似的方法，包括做人体全身三维建模。

值得注意的是，在这个最初模型里形状参数和动态参数是独立的。在研究人体全身建模时，他们发现这个最初模型太粗糙。对不同形状的人，比如肌肉强壮的和不强壮的，同样的动态变化造成的形状变化可以有很大的差别，于是他们第一个提出了tensor-based body modeling，也就是将形状、动态和三维几何描述作为一个整体用张量（tensor）来描述，取得了非常好的效果。

精准表情识别VS人脸识别

张正友带领的微软研究院团队在人脸检测方面的起步可以追溯到2006年，主要侧重于实时性和人脸侧面检测的鲁棒性。微软内部用的人脸检测技术基本上都是由团队提供，甚至也可能是最早用三维传感器做手势识别和人类行为理解的研究团队之一，早于微软推出Kinect传感器。此外，团队还在沉浸式远程呈现 (immersive telepresence)方面做了大量的研究，目的是将不同地点的人进行合成，让不同时空的人感觉是在同一个时空下，进行面对面的交流。

近年来，人脸表情识别逐渐受到了业界的关注。关于人脸表情识别，有人可能想到用这个技术去测谎，这确实是一个重要的应用，还有些应用包括医学领域比如疼痛跟踪。“我个人感兴趣的还是人机交互”，要想机器和人进行自然交互，机器必须要知道交互人的表情，也就是说机器需要情商（emotion intelligence），就像人需要有足够高的情商才能和谐的融入社会。从技术角度看，它和人脸识别都属于细分类。一个人和另一个人都有很多相同的地方，比如都有眼睛鼻子嘴巴，人脸识别就要把那些相同的东西去掉，把人和人差异的特征找出来。人脸表情识别也类似，不但需要把人和人有些相同的东西去掉，也要把人和人之间的差异去掉，但要把不同人相同的表情特征保留下来，所以非常有挑战。

要实现精准的表情识别，必然会面临各方面的技术挑战。张正友表示：“我应该是世界上第一个用神经网络做表情识别的。1996年我在日本学术休假，和研究人是如何做人脸识别的认知科学家交流，利用他们采集的数据，想用机器来做人脸识别。当然那时数据量少，我只用了三层的神经网络，特征是直接用Gabor小波参数。1997年发表了一篇会议文章，1999年发表了一篇杂志文章。二十年过去了，无论数据还是算法都有很大的发展。现在我们发布在微软Cognitive Services的Emotion API产品，用的是深度学习的方法，用了16层的神经网络和两百万张图像训练出来的。”

目前，人脸表情识别还处于婴儿阶段，研究的仅是基于图像的基本表情分类。人的表情是动态的，所以需要做基于视频的表情识别。要实现精准的表情识别，可能需要跟踪人脸每块肌肉的运动，做基于FACS（Facial Action Coding System）的表情分析。人的真正感情可能在所谓的微表情上表达出来，这样就需要用高速摄像头。此外，还需要跟认知科学家紧密合作。

视觉计算和深度学习的碰撞

在两个月前结束的CVPR（IEEE国际计算机视觉与模式识别会议）上，论文数量及参会规模都提升到了一个新的高度：收到了2620篇文章，有5000人参加，相比去年的CVPR增加了40%，计算机视觉在全球范围内的关注度可见一斑。

细心的读者可能发现了一个现象，本次大会上的优秀论文中出现了不少华人的面孔。对此，作为今年CVPR的大会主席，张正友激动的表示，“看到计算机视觉蓬勃发展很为高兴，作为华人，看到大量的华裔面孔和大批的参展的中国公司，我很骄傲。”

他认为，华人对计算机视觉的发展一直发挥重要的作用，但一个新现象是越来越多的人从中国来参加国际会议，越来越多的计算机视觉技术落地中国，视觉创业公司如雨后春笋。张正友希望，中国的计算机视觉研究和应用能更上一个台阶，为中国人工智能领域在世界上占一席重要地位发挥作用。

时下，全球视觉技术的趋势愈演愈烈，其中很大的一个原因正是因为大数据深度学习发挥的作用，在中国因为人口众多和对数据使用的宽松政策，这个优势尤为明显。但是，随着时间的推移，人们对个人隐私会更加重视，优势会偏向那些拥有原始数据的公司。因此，计算机视觉作为人工智能的一环，需要和垂直产业结合落地。

深度&丰富的场景应用

虽然深度学习的文章在现在的会议中占有很大的比例，但很多人已经开始认识到，深度学习和人的学习能力仍有很大的不同。人能够举一反三，很快学习新东西；人能够在执行任务中不断学习，在挫败中成长......等等，这都是深度学习现在所缺乏的。此外，现在视觉进步比较大的大都属于感知范畴，比如是什么物体、是谁等。视觉研究需要往更高层次发展，进入认知理解阶段并拥有常识推理，这也是为什么现在开始有不少研究将视觉和语言结合去理解图像视频。

视觉技术的应用前景无论如何都不会高估，它将涉及几乎人类的所以领域，包括人们熟知的无人驾驶、安防监控、金融认证。但随着中国经济的发展，对弱势群体的关怀必将加强，比如老年人和残疾人，计算机视觉在那些场景的应用将前途无量。

张正友表示最近一直在研究如何将计算机视觉实时地大规模地有效地应用到实际场景中，本次云栖大会上，他将就此分享计算机视觉在云计算上的看法。

原文链接

最后编辑于：2017.12.11 02:44:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

专访微软研究院张正友：从“张氏标定法”到人机交互，20年视觉技术的探索

推荐阅读更多精彩内容