姓名:梁祥 学号:17021210935
【嵌牛导读】:人工智能距离我们的生活越来越近,或许真的会有一天你都不知道坐在电脑另一面跟你聊天的是人还是一个冷冰冰的机器。
【嵌牛鼻子】:LDA、微软、写诗
【嵌牛提问】:我们距离一个能正常交流的机器人还有多远?
【嵌牛正文】:
那些时间的空气
我凝望着树叶
一桩桩更鲜艳的春花
能在萎靡的花园内
遇不见一个可爱的遗痕里
在秘密的树林里
有时共浴在鲜艳的青春的可怜的花园内
明知今夜月色之梦爱
那些时间的空气
上面是微软开发的人工智能“小冰”所书写的诗篇。这也是当人工智能攻克了人类在围棋领域所设置的壁垒之后,又一次在人文领域的重大突破。结构丰富语言和工具的使用曾一度被认为是人类与动物的重要差距。很多人都认为,人工智能只能在工业化领域进行重复机械的劳动,但是作为强人工智能,对情感和语言的分析早已是工程师们的囊中之物。在早些时间,人工智能已经通过对几十万本小说的训练,获得了人类的基本语言框架。现在对诗歌的进军,在某些程度上,已经表明人工智能在人文领域已经达到甚至超越了普通人的水平。毕竟大多数人写的诗歌也就打打油而已。
说起自然语言分析,就不得不提到曾经繁荣了整个行业的LDA(Latent Dirichlet Allocation)算法。它是一种具有三层贝叶斯结构的主题模型。主题模型,顾名思义即是利用文中词汇的主题作为纽带将词汇和文章联系到一起。
每一层都有相应的随机变量或参数控制。最早是一种用于文档主题生成的模型,包含词、主题和文档三层结构。其基本思想是:每个文档都是由隐含的T个隐含主题构成,即文档由隐含的T个主题随机混合而成,每个主题又是词的分布,对应一组特征词。主题模型可以在不借助词典的情况下,将高维的词向量空间映射到低维的潜在语义空间。
假如我们需要写一篇关于新上市汽车的文章,首先需要确定文章大概的主题,比如要写这辆汽车的动力、外观、内饰。确定完主题之后,就要下笔了,下笔的过程其实是在确定的主题中选择合适的词。
动力词:发动机、涡轮增压、功率、油耗、扭矩等;
外观词:氙气、天窗、后视镜、前脸、格栅灯等;
内饰词:仪表台、中控台、方向盘、座椅、靠背等。
最后加上合适的语法,文章就完成了。文章确定主题、主题确定词的过程,就是LDA的逆过程。
说这么多,其实LDA就是把一篇或多篇文章按照主题进行聚类,而聚类依据呢,就是文章中该主题下词汇量的多少。
这样看来,其实人工智能的写作大计其实也没有什么太高端的东西,它所创作的东西完全取决于它的训练数据。微软曾关闭了其在 Twitter 等几个平台上线的聊天机器人,原因是在网友的“调教”下,她不但学会了辱骂网友,还发表了种族主义评论和煽动性的政治观点。所以虽然人工智能学会了如何去表达,但是其在交流方向上还是高度依赖用户的意图指向。所以当你心累了,还是打个电话给妈妈靠谱一点。