12月11 日,起步于计算机视觉的依图正式进军语音识别领域,宣布其在全球最大的中文开源数据库AISHELL-2中取得了短语音听写字错率3.71%的好成绩。
依图还宣布与微软合作推出依图开放平台,提供语音识别算法API及大量的数据集;依图同时宣布与华为合作,结合依图的软件优势和华为昇腾(Ascend)系列芯片Atlas 300 AI加速卡的硬件优势,发布软硬件一体化的智能语音联合解决方案。
值得注意的是,依图针对不同场景,采用了同一种语音识别算法,单个算法模型表现出了多场景的适用性。
信息源:
https://www.leiphone.com/news/201812/GmTkTYOsCXZ0u4Bs.html
点评
目前,多家从语音或视觉出发的公司,在经过各场景的商业探索后,已形成相似判断:AI时代最重要的交互入口不会只包含单一的语音或图像功能,而是图像、语音等多模态技术的融合。
在依图之前,同样属于“计算机视觉四小龙”的云从已在今年10月发布全新Pyramidal-FSMN语音识别模型,将错词率降低至2.97%,超过受过严格训练的专业人类速记员。
今年7月,智能语音公司云知声联合创始人、芯片技术负责人李宵寒也曾在接受采访时说:“人工智能设备是让机器更像人,这样的话就必须提供多种感知能力,图像是必不可少的环节。”云知声目前也确实在做图像方面的布局。
未来,市场上会出现更多像云知声、云从、依图这样的“跨赛道”行为;打造多模态技术能力将成为人工智能行业的重要趋势。