上周三(11月1日),百度在杭州举办了百度AI开发者实战营活动;下面,是咱们“AI产品经理游学小分队”驻上海团友@日月德 & 驻杭州团友@yUaN 发回的现场干货总结(鼓掌)~
现场录音链接: https://pan.baidu.com/s/1hr9g1MW 密码: xyi9
一、百度 AI 开放平台及百度 AI 生态伙伴计划(燎原计划)
1、百度AI技术布局:形成生态,培育出各种应用
百度AI的研发重心,在平台及以下的四层,对于AI应用开发商来说,百度是一个很好的伙伴。
个人观点:从PPT管中窥豹,百度对AI的理解&发展思路。
重平台,轻应用
AI的发展依托于云计算,两者融合共进
NLP的应用更可能成为用户入口。NLP对于AI,就像浏览器相对于电脑,微信相对于手机
生态伙伴扶持,将是百度AI商业化的战略重心
(图下最后一行有贵人遮挡,原内容为:大数据+算法+大计算)
2、80+项能力(解决方案+场景化能力+计算框架)
百度AI能力覆盖了语音,AR/VR,OCR、人脸识别、通用图像识别、扫黄,视频识别,NLU(含UNIT),知识图谱。
个人观点:不得不说,真的很全。除了推荐算法外几乎覆盖到了。国内外能做到这么全的,好像只有微软。
3、OCR技术:个性化模板OCR(识别个性化字段)
百度OCR已经做成了一个大板块,支持自定义模板的OCR,都是些很实用的能力。
现场演示:发票、医疗单据的识别
4、图像识别&图像审核技术
现场演示:通过整车照和局部损伤部位的拍摄上传完成车辆定损识别和损伤的估价
5、定制化训练平台(11月发布)
应用案例:中草药鉴定
6、图片搜索
1)剪裁和缩放过图片的搜索
2)低分辨率下找高分辨率图片
3)不同背景下能找到主体
7、智能视频处理技术
功能:内容分析+封面选图(选最精彩的图)+比对检索(用图搜视频,去重)+内容审核
现场演示:视频内容分析(某个时间出现什么人物,说了什么话)+视频内容审核
个人观点:这套技术和公安部的天网视频采集系统来个合体,简直实现「1984」。
8、语音技术:语音识别(近场+远场)+语音合成+语音唤醒
现场演示的例子:方言的语音识别+长语音识别(小声说话+歌声的同步识别)
9、百度UNIT机器人对话训练和开发平台
应用案例:通过语音指引做菜的过程+智能客服(解决80%以上问题)
10、百度机器人视觉解决方案
现场演示的例子:机器人行走+人脸识别+商品识别
11、百度的燎原计划:
先选出百度ai生态伙伴(解决方案商+产业链厂商)→从中择优选入ai加速器
二、百度人脸识别技术应用方案解析
1、行业分布与场景应用(例子:金融的开户实名认证、招聘者身份审核、租车用户身份认证、物流司机认证、医药的会员进店识别、景区人脸闸机、广告线上营销、会场签到系统)
2、基础技术能力:
1)人脸检测
2)人脸对比(四种类型的照片)
3)人脸查找
4)人脸库(速度快+无限分组+永久免费)
5)活体检测(商业化的应用,双目活体达到100%效果)
6)人脸SDK,支持多终端
个人观点:百度人脸识别支持72个关键点,与友商如Face++(106关键点)比,还有提升空间。
3、典型应用方案
人脸核身(身份证的分类,复印件和不同版本等)
零售会员识别(客户喜好获知后针对性营销)、人脸支付、身份校验、安防监控
人脸的注册和采集(产品策略和交付更重要)
人脸库构建:如何定义用户Uid+如何划分用户组Group(相似人脸的处理,分组后搜索)
获取人脸方式:设备前端完成+后端服务器处理(安防部署)
人脸登录、人脸闸机、零售会员识别、人脸支付等业务架构
小TIP:通过用户分组,提高业务方案中人脸识别的准确率。
4、人脸硬件合作伙伴开放招募(赋能硬件,助力产业升级)
1)人脸技术栈
2)硬件+人脸技术=智能人脸设备
三、人工智能走进校园(人脸技术应用实例)
江苏感创电子,分享了他们利用百度AI,在校园市场上推出的解决方案。
1、通过物联网系统打造校园应用
2、人脸识别应用:刷脸借书、刷脸准入
3、语音识别duerOS应用:虚拟迎宾智能图书馆馆员
4、大数据分析应用:
5、智慧校园展望:打造无卡校园
四、AI+ 语音:开启语音交互的新时代
1、语音开放平台
2、百度语音的应用:手机助手、智能家居、智能客服等
3、语音技术开放(截止2017年10月,天蓝色为最新增加的,新增了方言和外语的识别)
4、对语音技术的新需求
1)近场(小于1米)→远场
2)单一设备(手机为主)→多设备(不同设备的差异)
3)安静场景→复杂场景
5、近场语音技术现状(与人类可比)
6、新场景(车载、家庭)、新技术挑战
1)远场识别+离线唤醒(家居场景的长久在线,唤醒词不能用常用词导致误唤醒)
2)技术线路图
3)数据增强(远景的嘈杂环境,不同型号的车导致不同的场景)
近场语音+房间RIR=模拟远场语音
近场语音+车载RIR=模拟远场语音(车内场景在不同车速、是否开窗的场景下不同)
4)用户侧的需求挖掘(地图无手操作+输入法语音纠错)
7、语音合成TTS的挑战(传统播报vs交互播报)
8、合成技术:准备数据(传统+大数据)
9、合成技术:SSML(可以定制语音中强调的部分,播天气预报时增加背景声,定制古诗词的读法,不同音效标签)
五、百度 AR 技术与平台:如何搭建 AR 内容生产分发消费的闭环?
1、AR演示视频可以达到的效果:虚实结合,支持点击效果
AR的特点:让人迁移到AR世界+多维信息展现+实时性(最重要的特点)
2、百度AR技术特点
3、平台全景:业务场景+平台工具(还能产生和真实用户的互动)+基础技术
4、平台业务流程(略)
5、DuMix内容平台(略)
6、内容开发步骤
例子:春节AR运营活动(请财神活动的互动)
7、内容制作工具(内测)
六、百度深度学习框架 PaddlePaddle
现场展示了一个PaddlePaddle的应用案例。北京工业大学一个学生创业团队,利用PaddlePaddle,为果农做了一个桃子智能分拣系统。
个人观点:
目前国内有自研深度学习框架的,不多。有能力,有精力,并且肯砸钱的不多。但框架是真的重要。做AI基础能力的,没有属于自己的框架,就像造车没有自己的发动机,做手机没有自己的芯片,略显底气不足。TensorFlow即将一统深度学习框架,为了避免重演安卓悲剧,让我们欢迎PaddlePaddle这只大花瓣吧
(完)
以上内容,来自饭团“AI产品经理大本营”,点击这里可关注:http://fantuan.guokr.net/groups/219/ (如果遇到支付问题,请先关注饭团的官方微信服务号“fantuan-app”)