“生活是怎么阻碍我们的?”系列,是关于在生活中遇到的各种问题与不适应性。曾读过的一句话,意思是说“当身边的大多数人还在享受科技的便利,而你却觉得不能大展身手,有被阻碍的感觉时,你把那些不便利变成便利的行为就是在开拓未来”,深以为然。这个系列的文章表达了对当下生活的一些不满与改进愿望。
内容提要:
1.输入法发展越来越智能化
2.输入法智能性体现为:丰富且快速更新的词库,对用户操作习惯的解析,内容与场景识别。
3.共享经济思维下的输入法,用户不仅提供输入内容和输入操作,还会优化其他用户体验。
4.云计算与机器学习应用于输入法会会带来新变革。
5.微场景的内容识别和输入操作的模式识别是新阶段输入法的两大核心技术。
智能输入法的发展
中文输入里,PC输入法是一个重要的交互入口和流量入口。输入法,其实就是最典型的用户体验型产品代表。
在最早期,人们都还是用全拼、双拼,后来有了好用的智能ABC,紫光拼音,他们相对于现在来说,都是伪智能。也就是2006年,互联网开始迅猛发展的时候,人们对输入法的需求放量增长,促使了新一批的智能输入法的诞生,最有名的就是搜狗输入法和谷歌输入法,其中搜狗输入法从那时期就赚足了人气。在2010年前后,智能手机大爆发的时代,手机输入法和电脑输入法一起深入了用户的生活,几乎,每个中国人要与外界联系,都离不开输入法了。(偷偷插一段,微信语音的普及,又进一步简化了人们产生联系的成本,把联系的交互成本降到了更低。当然因为语音的隐私性因素,语音不能成为主导性信息输入方式)百度、必应、QQ都先后加入了输入法的阵营,这时候的他们只能说太晚了,搜狗已经在输入法这片土壤上耕耘了5年,积累了太多人气与技术。不过BAT的霸权还是在的,利用自身的优势,百度和QQ还是都占据了自己的那一部分市场。百度在移动端的发力,也让它有了一片新的开拓领域。
智能性
说了这么多的发展,时间回到2016,各家的发展都已经积累了一段时间,输入法的版本已经都进入了稳定更新的状态,这时候的智能输入法能够配得上“智能”的称号吗?笔者简单地以搜狗输入法、百度输入法、QQ输入法和windows自带的微软输入法为例,说明输入这个交互体验的过程的智能性,不评价各个输入法的附加特色功能,如皮肤、截屏工具等。
输入法的智能性基本体现在以下几个方面:
第一,词库丰富且更新快,属于运营的范畴。现在的输入法基本上都能获取到网络权限,不断更新完善的词库可以很大程度避免用户输入词汇很难找到的尴尬。这是输入法智能的最基本表现,用户能快速找到想要录入的词汇。
第二,对用户基本操作习惯的解析,这是产品设计和用户体验的反映。一个是基本错误,由于用户对正确拼音的掌握不佳导致的本质性输入错误,各家输入法都有模糊输入来解决这个问题。一个是用户在快速打字时,容易出现的错误有字母顺序错误、错按旁边字母、单字母重复输入等,这些是随机性的误操作是需要输入法理解用户的输入意图,正确地显示用户想要的内容,由于这些操作具有一定复杂的规律性,仍然是可以模糊预判的,这个就和各家输入法的算法和词条检索依据相关了,用户的体验就会做出很大差别,这属于智能输入法用户满意程度最大的评判依据,是用户的期待需求。这里搜狗是做得最好的,但仍有提高的空间;微软是最差的,成长空间当然很巨大了(调侃)。
第三,内容识别与更专业的词汇关联。这个功能最大的目的是能够通过用户近段时间的输入操作和输入内容,为用户智能的推荐更符合用户输入内容领域的词汇语句。具体场景更多是在处理专业的文本输入时(如学生写论文、作家写书稿、记者写新闻等),专业的词汇和句式的判断与筛选,辅助输入法评定词汇的优先级。词汇关联每个输入法都在做,用于优化选词结果的匹配性和命中率,但是现在的输入法基本都是基于当前词条的输入内容与历史记录,更多的是高频词汇再次选定、长句语境判读结果秒对,而对于输入内容上下文的理解,文章内容领域的判定还不是做得很好(这里很可能是因为存在用户隐私的问题)。这个功能对用户来说更多是一种惊喜、出乎预料性质的一种体验,犹豫没有详细研究过所述四个输入法的技术,所以不清楚是否存在相关的技术应用,但是从用户体验上来说,搜狗做的最近接,体验也最好。
猜想与展望
基于对现有产品的体验,但是由于技术了解很少,这里只能对只能输入进行猜测与展望。
1.共享经济的启发。
想到共享经济要素里提到的“过剩的产能资源”、“低成本化的分享”与“用户参与的平台”,让我觉得输入法也是一个可以共享的“经济”。像Waze利用人们对地图的使用而让地图越来越准确,越用越满意的情况,输入法也是一样的道理。用户会源源不断的产生内容,拥有风格各异的操作习惯,平台或者工具要做的就是找到类似的用户,将他们的习惯、内容匹配在一起。
形象来说,John是一个互联网产品从事人员,他的输入内容很多与互联网相关,词汇、用句甚至句法等都有明显的风格;Alex也是一名互联网从事人员,当他开始使用输入法时,他完全可以借用John产生的用户语言群,对自己的输入进行优化。如果和John、Alex一样的人足够多,他们的语言群就会成为一个具有很大相似性的词库,如果一个新用户可以很快被识别为和他们一样的人群,那么输入法就可以更高效智能的为这个新用户服务。
同样的道理,输入操作习惯也是用户生成的一种庞大资源。用户在输入某些词汇的时候,总会惯性的输错某两个字母的顺序(把搜索sou'suo输入成suo'suo)、用户在输入某个词汇(例如两个liang'ge)的时候总是会少按某个相同字母(g)等,用户的错误变成为一种资源,用来优化所有具有相同习惯人的输入的资源。同时,用户本身正确的输入操作习惯,也变成一种资源,用于优化相同操作的用户词汇。甚至, 当输入操作习惯间产生了不可思议的联系时,这个由于操作习惯带来的资源又可以提取出更多的资源,比如常有A操作习惯的用户,也伴随着B操作,输入法平台实现了对数据的二次挖掘。
2.机器学习与云计算
如果说现在的智能输入法都算是一种本地化的机器学习,它学习用户的输入内容与习惯并给与本地用户更好的体验,那为什么我们的机器学习不能处于云端呢?它不仅仅学习一个用户的输入内容和输入习惯,还能学习所有用户的输入内容和输入习惯,智能地分析不同用户之间的关联性与差异性,并且对新用户进行实时、快速地分发已学习到的、适合该用户的输入内容与输入习惯。
如果说共享经济种的平台是为了实现更高的资源调配与优化,那传统的共享平台也可以从人为设定规则的层次,升级到机器学习结果最优化的层次。平台的工作不仅仅是收集资源,更深入的是精准高效地派发分配资源。
由于用户使用的PC性能已经相当卓越,并且输入具有间断性特定,云计算可以采用分布式计算与服务器组合的形式,那么版本的迭代与更新变为应用程序的优化更新与服务器的算法优化更新。
3.基于微场景的内容识别
要完成用户输入内容的识别,就需要输入法“读懂”用户的内容,当然获取用户的输入内容本身是一种剽窃隐私的做法,但是当用户选择某个智能输入法的时候,就明白如果希望输入法能更好用更智能,那么输入法就会对用户的输入产生一定的记录,正如人们使用谷歌翻译的时候就明白想要获得的翻译质量更好,内容自然会被谷歌获取到以匹配更优选的翻译方式和词汇。
输入法读懂用户内容是存在条件的,即基于微场景的读取。输入法不能太复杂,而且用户输入习惯具有间断性,在一个集中的时段,用户会集中于一个或者少量的几个主题产生内容,这也要求输入法的内容的识别是微场景的,而不是长时间连续性的。形象来说,当用户在网购有关蛋糕烘焙的宝贝时,我们要求输入法能够根据输入场景(比如打开的网页和使用的应用程序)快速地识别场景的转换和主题,从网址输入、电商搜索栏输入到与卖家沟通、朋友间分享咨询,输入法能够理解到用户开始了一个关于蛋糕烘焙的话题,并且开始提供适用于网购、蛋糕烘焙甚至是某个网页或者应用特有的常用词汇,直到切换到下一个场景。
4.用户输入操作模式识别
用户输入操作的资源更多是模式识别的范畴,这里主要是对个体用户的习惯性操作进行抽象,提炼用户操作特征与分类。这里暂时能想到的就是基于神经网络的聚类分析。
最后
从输入法的智能性,分析了智能输入法在智能领域可能的发展,但是都没有基于实际调查的整体用户需求,也没有深入了解实际输入法产品中应用的技术,并不符合产品从需求到功能的思维。只是从日常生活中的一些现象,推想到可能的未来发展,希望输入法在未来可以有更智能、更人性化的用户体验。
限于本人的认知,上面的内容都还没有经过精准论证的看法,如果有错误的地方,还请大家指出讨论。