对话系统调研笔记

对话系统分类

任务型 开放域聊天 知识问答 推荐系统
目的 完成任务/动作 闲聊 知识获取 信息推荐
领域 特定域(垂类) 开放域 开放域 特定域
场景 个人助理 娱乐交流 客服/教育 个性化推荐
典型 Siri/小娜 小冰 Watson 今日头条
轮数 单轮 多轮 单轮 单轮

早期工作

名称 Eliza Clippy A.L.I.C.E
开发者 MIT 微软 Richard S. Wallace
时间 20世纪60年代 20世纪90年代 1995年
特点 不好用 不好用 尽管是启发式模板匹配,但却是同类产品中做的最好的

转折

2016年微软、Facebook、Amazon等公司分别发布了各自的相关产品,原因有如下两点:

  1. 消息类服务(尤其是社交网络)大发展
  2. 深度学习技术实现突破

分类

开放域:无明确主题、目标

特点:

  • 依赖丰富的知识
  • 要完成任务
  • 具有社交性

问题:

  • 逐渐趋于娱乐化,而非完成任务
  • 质量、深度不够

封闭域:明确的目标,限定知识范围

特点:

  • 有限知识,有限输入输出
  • 专注某一项工作
  • 有明确的目标

问题:

  • 容错低
  • 数据少,无法数据驱动
  • 耗费人力物力,难以平行迁移

经典架构(任务型对话)

一般由3个核心模块构成:自然语言理解(NLU)、对话管理(DM,包括DST和DPO)和自然语言生成(NLG)

车万翔,张伟男.人机对话系统综述[J].人工智能,2018(01):76-82.

如图所示,仅看右侧就好,左侧是语音到文字的转换及其逆过程。其中NLU叫做SLU了,其实是一个意思。

NLU:自然语言 -> 结构化的语义表示

示例:

目标是识别出领域、意图和语义槽

输入查一下明天到上海的机票
输出 :

<
    领域=航旅;
    意图=查询机票;
    语义槽(
        出发日期=明天;
        到达地=上海
    )
>

主要任务:

  • 领域识别
  • 意图识别
  • 槽值识别

实现方法:

  • 文本分类(Text Classification)
    • 定义:根据预先设定好的主题类别,按照一定的规则,为未知类别的文本分类
    • 应用:对用户的输入进行领域分类意图分类
    • 机器学习实现:k近邻法(kNN)、朴素贝叶斯和支持向量机(SVM)
    • 深度学习实现:卷积神经网络(CNN)、CNN与循环神经网络结合(CNN+RNN)
  • 序列标注(语义分析/语义标注)
    • 定义:给自然语言文本序列打上对应标签
    • 应用:本任务中的槽值识别,别的任务中的分词、词性标注和命名实体识别(NER)等
    • 机器学习实现:隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)和感知机(单层神经网络)
    • 深度学习实现:长短时记忆网络(LSTM)、LSTM+CRF

DM:综合当前用户输入和历史中已获得的信息,给出机器作答的结构化表示

示例:
DST

< 日期=NULL; 出发地=NULL; 到达地=NULL >
=变成=>
< 日期=NULL; 出发地=NULL; 到达地=上海 >

DPO :

< ask=出发地 >

DST:通过自然语言的结构化表示,理解、捕捉用户的意图、目标

  • 将与用户交互的过程看作在填一张表,这张表记录了当前对话的状态
  • 不断从对话中抽取信息,填到这张表空缺的地方
  • “当前在填哪个语义槽”确定的情况下,是一个监督学习的多分类任务(参考上文文本分类)

DPO:与用户交互,获取到缺少的信息

  • 动作槽位少,则可基于规则
  • 若复杂,但每步无标准答案,是强化学习问题

实现方法:有限状态自动机(FSA)、填槽法、基于实例的方法、基于规划的方法和贝叶斯网络

NLG:把DM的结构化对话策略,还原成对人友好的自然语言

实现方案:

  • 基于模板产生回复(rule based)
  • 基于深度学习的生成模型(seq2seq模型)
  • 基于知识库检索(query based)
解决方案 优点 缺点 应用场景
rule based 在特定领域内很准确 移植、扩展能力差 个人助理
seq2seq 数据驱动 需要大量语料 闲聊机器人
query based 易扩充,无语法错误 不连续、答非所问 问答/客服

目前基于深度学习的seq2seq(亦称Encoder-Decoder)生成式端到端模型快速发展

发展趋势

  • 目前任务型对话是趋势
  • 让端到端的闲聊机器人可用性提升是发展方向

典型问题:

  • 经典任务型对话,在开放域中无法穷举意图和语义槽
  • 同样无法穷举回复策略

解决方案:

  • 用向量隐式表示意图、策略等是不错的想法

参考

  • 车万翔,张伟男.人机对话系统综述[J].人工智能,2018(01):76-82.
  • 贾熹滨,李让,胡长建,陈军成.智能对话系统研究综述[J].北京工业大学学报,2017,43(09):1344-1356.
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容