在人工智能大肆宣扬的今天,你有没有想过,到底什么是人工智能?我们怎么才能判断一个机器是否具有人一样的智能?《科学美国人》3月刊的一篇文章就聊到了这个问题。
我们都知道,早在1950年,世界计算机之父图灵就提出过一个名为“图灵测试”的方法,来判断机器是否具有智能。具体来说,就是让参加实验的人跟机器聊天,这些人不知道自己正在说话的对象是机器,然后让他们根据聊天的情况做判断。如果超过一定比例的人认为自己的聊天对象是人类,那么就可以说,这个机器具有人一样的智能。这个方法在当时被称为人工智能终极测试的思想实验。
但图灵测试是有缺陷的,那就是太容易作弊,机器想要获胜,可以采取避而不答的方法。2014年,就有一个聊天机器人通过伪装成一名来自乌克兰的13岁男孩,通过了图灵测试。在测试中,这个机器从不正面回答问题,而是顾左右而言他。科学家问它,鞋盒子与珠穆朗玛峰,哪个更大?机器会说:“现在我还不确定,我得再想想。”然后机器会接着说句话来转移话题,比如机器会说:“对了,我忘记问你来自哪儿了?” 所以这篇文章认为,原始的这版图灵测试,经不住时间的考验。通过测试的机器可能只是偷奸耍滑,而不是真的有智能。那么现在,我们到底应该怎么判断一个机器有没有和人一样的智能呢?文章介绍了四个最广为接受的方法。
第一个,叫威诺格拉德模式挑战。这个测试其实是一种语言问题的考验,要想正确解答,需要被测试者具备足够的人类常识。
考官会设置一个场景,比如说,市议员拒绝提供示威许可,因为他们害怕出现暴力,然后问机器,谁害怕暴力?在这种情况下,对于“他们”一词的指代问题存在着歧义。作为人类,我们都知道,“他们”指的是市议员。那么考官又会问了,市议员拒绝给示威者许可,因为他们提倡暴力。谁在提倡暴力?这时候,答案就变成了示威者。
互联网有海量的信息,一些知识性的、有正确答案的问题,机器可以轻易就找到答案。但是这个方法的好处就是,在有互联网搜索条件的情况下,仍然很难作弊。而缺点就是,题目不好想。文章认为,总体来看,用这种方法测试的难度还是挺高的。在2016年,有4个系统比赛回答了这个测试,胜出系统的准确率只有58%,而研究者设定的门槛是90%。
第二个,叫做人类标准化测试。在这个测试里,人工智能会像人一样,参加小学、中学的标准化考试。这个方法的优点是,题目海量,标准测试相对简单,而且容易执行。而有关常识的问题需要进行阅读理解,有可能不存在独一无二的答案。但缺点是,这个测试是面向人类设计的,通过标准化考试并不一定意味着机器具有了真正的智能。整体上看,这个方法难度中等。
第三个方法,是物理图灵测试。大多数机器智能测试还只集中在认知方面。而这个测试更像是实践课,需要机器人动手。分为两个方向。在构建方向,机器人必须学会阅读使用说明,将一堆部件组装成实体。而探索方向,需要人工智能发挥自己的创造力,使用积木来完成指定的任务。这两个方向都要求被测试的机器理解任务内容、找到解决方法。
这个测试的优点显而易见,它模拟了现实世界中智能生物需要解决的问题。另外,这种测试很难作弊。但这个测试繁琐且难以自动进行。而且对机器而言,难度极大,按文章的话说,就是科幻级的。
第四个方法,和上面三个方法的考官是人不同,这个方法没有人监督,完全由算法自动化测试。测试内容包括让人工智能总结音频文件中的内容,叙述视频中发生的情节,即时翻译人类语言,同时执行其他任务。最后给出一个客观的智能分数。
这样做可以保证理论上的客观公正。但是具有不可预见性,比如,这个算法可能会给人类研究者无法完全理解的人工智能系统打个高分。---TSF速学商业