当前技术:★★★★✰
未来潜力:★★★★✰
应用落地:★★★✰✰
视觉识别是机器学习比较早突破的领域, 这是由于之前的符号派主要使用模式识别的方法,对变化多端的图像编码识别能力是各大应用领域里最弱的,而机器学习的本质适合大量的不确定的素材分类,非常适合视觉识别领域。
模式识别就像是自上而下的方法,现有模式后识别匹配度,而机器学习更像是自下而上的方法,先有大量素材,机器自己学习一个多层复杂模式(大部分情况下不能解释)来判定分类。
ImageNet&CNN
视觉识别领域不得不提ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)比赛。从2010年开始每年举办一届,2012年多伦多大学Geoffrey Hinton学生的AlexNet取得突破的16%后,纽约大学LeCun团队,牛津大学,谷歌,微软纷纷参赛大幅提高正确率,涌现了AlexNet,ZFNet,OverFeat,VGG,Inception,ResNet等经典网络,最终2017年达到了29支队伍的错误率在5%以下,所以之后大赛停办。
ImageNet也指由李飞飞李飞飞领导的图片数据集,李飞飞团队从2007年开始,耗费大量人力,通过各种方式(网络抓取,人工标注,亚马逊众包平台)收集制作而成,作为论文在CVPR-2009发布。目前是一个超过15 million的图像数据集,大约有22,000类,参见http://www.image-net.org/。ImageNet的道理是很简单的,所以当时有很多计算机大牛并不屑做此类基础没说明智慧含量的工作。我不知道李飞飞当时是出于何种动力,是确实看到深度学习的前景缺少数据集“喂养”,还是因为在硅谷,氛围适合做一些大项目,也或是因为手下的年轻研究生多。而当时数据集发布以后人们还很怀疑通过更多数据就能改进算法的看法,而且对于只是做了苦活建立了数据集就能发表论文表示不满。
时至今日,我们已经知道了新一轮的人工智能浪潮就是由机器学习一路引领的,而最重要的就是要由高质量的数据集,如果没有数据集,研究算法无从谈起,因为从本质上来说,机器学习是自下而上的。ImageNet的诞生产生了很多影响,全世界的研究员,程序员都可以使用ImageNet
数据集来训练自己的算法。
ILSVRC比赛使用的数据集是ImageNet数据集的一个子集,一般说的ImageNet(数据集)实际上指的是ImageNet的这个子集,总共有1000类,每类大约有1000张图像。具体地,有大约1.2 million的训练集,5万验证集,15万测试集。
CNN模型时1998 年深度学习三巨头之一的 Lecun 正式提出了,并设计了 LeNet-5 模型用于手写字符识别等领域,取得了不错的结果。十多年后的 ImageNet 比赛中,基于 CNN 的 AlexNet 在比赛中大放异彩,并引领了 CNN 的复兴,目前,CNN 是计算机视觉领域最重要的算法,在很多问题上都取得了良好的效果。
人脸识别
目前视觉识别中比较成熟的应用模块是人脸识别,静态照片和动态视频都可,主要应用领域有:安防,金融,美颜三大场景,技术上已趋于成熟。
安防场景主要应用于反恐、边检、公安等多个监管部门。在金融领域,主要提供人脸识别登录功能支持。在移动互联网方面,提供美颜,动态美化等技术。
国内主要公司:商汤/旷视/依图,云从,格灵深瞳
视觉识别领域的独角兽比较多,国内的商汤和旷视算是第一梯队,业务重叠也较大。云从是唯一的国家队,依图除了三大场景还宣布进入医疗领域,格灵深瞳曾想在识别技术上突破,从2D到3D。
商汤SenseTime科技由香港中文大学工程学院团队创立,2016年曾拿过ImageNet一个分赛的冠军。在融资上表现极佳,曾连续获得4.1亿,6亿,10亿美金,估值抬至60亿美金。商汤原本只是为其他行业提供算法的,但拿了很多钱以后,应该是钱其实是过多了,也开始做再投资相关业务和视觉识别的商业化落地等延申工作。2016年和2017年是国内互联网金融最热的时候,为金融服务提供人脸识别智能语音等技术是当时最大的业务,安防是第二大重点,通过智能视频解决反恐、罪犯抓捕和保障公共安全,当然也提供手机相机的算法。
旷视Face++,从名字上看就知道开始主要做人脸识别的,主要班底是清华姚班,商业上也比较明确,以人脸识别为主要技术的场景扩展,在安防领域落地提供一整套方案,以智能摄像头硬件为基础的,涵盖了包括人脸识别门禁、天眼监控系统、动态人脸识别监控、人证合一等多个应用方向,应用于反恐、边检、公安等多个监管部门。在金融领域,旷视背靠投资方阿里巴巴,为支付宝客户端提供人脸识别登录功能支持。在移动互联网方面,旷视为美图提供技术。
云从科技孵化于中科院重庆研究院,是唯一一个没有阿里系和外资入股的人脸识别独角兽,目前银行业人脸识别第一大供应商。由于目前视觉识别的主要场景安防,金融客户都是国家居多,云从科技也是有很大的机会的。
依图YITU有上海交通大学背景,与上述三家不同的是,2016 年下半年率先将人工智能技术应用于医学影像的AI独角兽公司。当然也有常规的安防,金融业务。
格灵深瞳曾经也是第一梯队的,创始人赵勇是Google Glass 的七位设计者之一,但过于强调先进技术,和商业决策上的失误脱离了第一梯队,具体可以参看36Kr的小败局:https://36kr.com/p/5226977
安防,金融几乎是所有视觉识别公司的最大业务,而从技术层面说,从2017年开始其实大家都已经差不多了,更多的其实是商业竞争。依图参与医疗视觉识别是个我个人觉得很有社会责任感的事情,不过有时候商业不一定会回报,短期有可能不会太有成效。格灵深瞳技术追求是深远的,可惜3D摄像头并不普及,而且市场并不买账最佳,而是最佳性价比,格灵深瞳的遭遇不在技术问题,而在对经济规律的理解上,但是我还是希望他们能继续走下去。
个人职业选择
目前视觉识别机器学习的算法已经比较成熟,如果作为顶尖研究者,能改进的方面有限,空间也不大(5%)。但只是进入视觉识别领域做工程师还是有一定机会,因为具体场景结合的应用非常多。
传统行业也在梳理自己已有业务,希望能应用机器学习进行商业落地,虽然视觉识别的算法比较成熟,但不同场景下的操作细节还是需要经验来调适,这一块也需要大量人才,需要略懂机器学习和相关领域知识的复合人才,是项目经理,商业人才,其他可应用视觉识别算法领域人才很好的职业选择,从职业发展上来说不会有爆炸式成长,但算是个安稳的方向。
想要学习视觉识别机器学习课程,首选斯坦福的两个课程:
CS231N:Convolutional Neural Networks for Visual Recognition《用于视觉识别的卷积神经网络》 :
课程主页:http://cs231n.stanford.edu/
视频链接:https://www.youtube.com/playlist?list=PLzUTmXVwsnXod6WNdg57Yc3zFx_f-RYsq
Coursera上的斯坦福《机器学习》课程:
https://www.coursera.org/learn/machine-learning
更多的扩展和深入的编程课程可以参看:
Khan Academy可汗学院:https://www.khanacademy.org/
LeetCode力扣:https://leetcode-cn.com/