用 Intel Analytics Zoo/BigDL 为客服平台添加 AI 的实践（一）

微软 Azure 的团队使用 Intel Analytics Zoo（https://github.com/intel-analytics/analytics-zoo）在 Azure 的平台上为客户支持服务平台添加 AI 模块的一些实践。

背景

在如今商业高度发达的社会，客户支持服务平台已被广泛使用在售前和售后为客户提供技术或业务支持，例如银行的电话客服，淘宝京东等电商的在线客服等等。传统的客户支持服务平台仅仅是一个简单的沟通工具，实际的服务和问题解答都是靠大量的人工客服和客户直接交互。后来随着机器智能和自动化技术的提升，越来越多的商家开始为客服系统添加智能模块，节省人力，提升顾客的交互体验。

我们有一个试验中的智能客服平台。它主要基于在线的文字对话，客户在对话界面中提出问题，平台从支持文档和预先存储的常用答案中搜寻答案回复客户。如果客户觉得答案给的不合适，可以主动寻求转人工帮助，后台的支持人员会在线和客户对话，提供帮助。基础的客服系统问答给用户自动提供的答案主要来自于预先编辑好的对话流和基于 Information-retrieval 的文档搜索、索引和权重计算。在陆陆续续有了一些真实的问答交互之后，我们希望改进初版的系统，利用机器学习和人工智能实现基于不断累积的真实数据的自动学习和进化。一方面，利用自然语言意图识别和 QA 问答相关技术来提高答案的准确性；另一方面，利用对话内容和其他客户特征进一步提升效率和用户体验——例如对对话进行情感分析，对包含负面情绪的客户进行特殊处理；根据对话内容进行分类，为转接人工对应团队提高服务效率；根据用户画像选择更相关的问题答案。

作为初步尝试，我们在原有的系统中添加了两个新的智能模块（使用 Intel Analytics Zoo 实现）：文本分类模块，和 QA 排序模块。文本分类模块的作用是对对话的服务类型进行分类，以使得转接对应人工团队的时候更加高效，这个模块以后经过一些简单的修改还可用于情感分析。QA 排序模块则用来对现在搜索引擎得到的答案进行再排序。

目前我们已经做了一些实验，效果还不错，后续的实验和部署还在进行中。在这个系列博客里，我们会逐步把我们在搭建这个客服平台的流程和经验分享出来，供大家参考借鉴。

在本篇博客中，我们主要介绍基于 Analytics Zoo 0.2.0 版本（https://analytics-zoo.github.io/0.2.0/）为客服平台添加“文本分类”模块的大致流程及实践经验。

为什么采用 Analytics Zoo

Analytics Zoo（https://github.com/intel-analytics/analytics-zoo）是 Intel 开发的一个开源大数据分析 +AI 平台。项目包含 Scala 和 Python 两套 API，提供了一系列方便实用的封装和工具（包括 Pipeline API 以及更 high-level 的 API，预定义的模型，在公共数据集上预训练的模型，以及参考的实用案例等等），使用户能更容易地使用 Spark 和 Intel BigDL（Intel 开源的一个基于 Spark 的分布式深度学习框架）进行深度学习应用的开发。

客服平台的对话数据量会随着系统投入使用逐渐变得庞大，将数据存放在 Hadoop 集群上可以满足集中管理、分享和可扩展性的需要。而使用 Analytics Zoo 读取和处理存放在 Hadoop/Spark 集群上的数据是非常方便的事情。Analytics Zoo 在标准的 Spark 集群上面使用 Scala API 训练和预测并不需要对云有特殊的改动或配置，还有很多预定义的模型可以开箱即用。在预测的时候，可以使用 Analytics Zoo 提供的 POJO 风格的 service API（本地运行无需 Spark 集群）来做低延迟的预测。如果是对吞吐量要求较高的话，则建议使用 Analytics Zoo 提供的标准 prediction API（可以运行在 Spark 集群上）。这两套 API 都可以很方便地被添加到基于 java 的 service 中。

文本分类概述

文本分类是一种常见自然语言处理任务，主要的目的是将输入的文字片段分配到一个或者多个类别中。例如，垃圾邮件分类就是把邮件的内容片段分配到是否垃圾邮件的类别中。而我们这里的应用场景则是将一段对话归类到一种服务类别中。

训练一个文本分类模型的过程一般包括几个步骤：采集和准备训练数据集和验证数据的文本集，数据清洗和预处理预处理，在训练数据集上训练模型，在验证数据集上评估的指标，如果验证集上的指标不够好，则继续优化模型（包括添加新数据，调整参数，算法等）。

Analytics Zoo 提供了一系列预定义好的文本分类模型（如 CNN, LSTM 和 GRU）。我们直接选择了其中基于 CNN 的分类模型作为基础进行开发（以下训练过程中使用的 API 均以 python API 为例）。

在上面的接口定义中，class_num 是指该文本分类问题包含类的数量，token_length 是指每个词对应词向量的大小，sequence_length 是指每个文本所包含的词的数目，encoder 是指对输入的词向量序列的编码器（可以是 cnn, lstm 或者 gru），encoder_output_dim 是指编码器的输出维度。这个模型接收的输入的是一段文字的词向量的序列，输出是一个类别标签数字。

如果对这个模型内部包含的具体神经网络结构感兴趣，可以查看这段源代码（https://github.com/intel-analytics/analytics-zoo/blob/branch-0.2/pyzoo/zoo/models/textclassification/text_classifier.py#L58-L72 ）。

数据采集和预处理

训练数据中的每一条记录包含两个字段：对话历史和对应的服务类别标签。我们采集了几千条这样的记录，并用半自动和人工的方法进行了类标签的标注。拿到原始训练数据以后，首先对对话文本进行了清洗，去掉文本中无意义的 tag 和乱码，并转化成每一条记录都是（text, label）的 text RDD。然后我们对 text RDD 做了预处理，生成文本分类模型可以接收的输入。要注意，数据清洗和预处理的部分，对于训练数据和对将来应用预测中的新数据都要一致。

（如何开发票 …, 1）

（发票如何寄送…,1）

（远程服务连不上…，2）

（如何购买…, 3）

…

清洗之后的 text RDD 记录示例（每条记录都是一对对话文本和类标）

清洗过程这里不再赘述，下面主要介绍预处理主要包含的常用步骤：

1. 中文分词（Tokenization）

和英文不同，中文文本由连续的字序列组成，每句话的词与词之间没有特定的分隔符，需要通过语义和词典进行分词。我们采用的是jieba对原始文本内容进行分词。经过分词之后，原文本被转化成了一个由词构成的数组。

2. 去掉停用词（Stopwords Removal）

停用词是在文本检索过程中出现频率很高但又不涉及具体内容的单词，这些词的存在通常对于文本分类的帮助不大。可以选择使用中文常用的停用词表（比如“只要”、“无论”等）或者用户自己指定停用词，将这些词从分词的结果中去除。

3. 统一长度（Sequence Aligning）

不同的文本通常会有不同的长度，但对于一个深度学习模型而言，则需要统一规格的输入，因此我们要把文本对应的词数组转换成相同的长度。对于给定的长度 sequence_length（比如 500），如果文本包含的词数目大于该长度，可以选择从文本开头或者从结尾截取该文本中该长度数量的词。如果文本的词数目不足该长度，则可以在原本的词之前或之后加上虚拟的词来补足（比如“##”）。

4. 转换为词向量（Word2Vec）

5. 转换为 Sample

模型训练，测试，评估和优化

在创建 Optimizer 的时候可以指定让模型在训练集上进行多少次迭代训练（epochs），每次训练使用的批大小（batch_size），采用的优化方法以及它的学习率（learning rate）等参数。

可以在训练的过程中，在验证集上输出指定的性能指标（比如 Top1 accuracy），这样能了解到模型在训练的过程中是否已经过拟合。同时 BigDL 也支持在训练过程中阶段性保存快照可用于之后恢复训练。更详细的 Optimizer 的参数和使用方法请参考文档（Analytics-zoo 同时支持 BigDL 0.5 和 0.6 版本，Python pip install 默认同时安装的是 BigDL 0.6 版本）：https://bigdl-project.github.io/0.6.0/#ProgrammingGuide/optimization/

如果验证集上结果不好，就要对模型进行优化，这个过程基本是重复调参/调数据/训练/测试验证的过程，直到准确率可以满足实用要求。我们这个模型一开始几次的准确率是不够好的，我们之后对学习率进行了调整，并添加了新的训练数据，增加了停用词词典，后来准确率有了大幅提升。

以上的训练过程在单机上和集群上都可以运行。如何操作可以参考文档：https://analytics-zoo.github.io/0.2.0/#PythonUserGuide/run/

另外，Analytics Zoo 提供了完整的文本分类的指南和实例供用户参考：

https://analytics-zoo.github.io/0.2.0/#ProgrammingGuide/text-classification/ 。

https://github.com/intel-analytics/analytics-zoo/tree/branch-0.2/pyzoo/zoo/examples/textclassification。

将模型预测部分与 service 集成

拿到训练好的模型之后，接下来要做的就是把新输入的文本经过同样的预处理之后喂给模型，然后模型会输出一个分类的标签。由于我们的微服务是用 Java 实现的，考虑到效率，我们没有直接用 python 代码进行预测，而是用 Analytics Zoo 提供的 POJO 风格的 Java Inference API （用法和接口参考文档https://analytics-zoo.github.io/0.2.0/#ProgrammingGuide/inference/ ）实现了预测部分的代码（Java API 可以直接 load python code 训练好的模型来做预测），示意如下。另外 Analytics Zoo 也提供了文本分类的完整的 web service 示例可参考：https://github.com/intel-analytics/analytics-zoo/tree/master/apps/web-service-sample

模型的持续更新和发布

数据是随着时间不断累积的，因此在实际使用中经常会定期使用全量或增量数据重新训练模型，并把模型更新到预测服务中。要实现这一点，只需定期运行训练程序得到新的模型，然后利用上面示例过的 model.load API 重新加载更新过的新模型就可以了。另外，我们的 service 用基于 Kubernetes 的方案进行持续更新和集成。Analytics Zoo 也提供了 docker 的 image （https://github.com/intel-analytics/analytics-zoo/tree/branch-0.2/docker）供下载安装。

原文转载：https://www.azure.cn/zh-cn/blog/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,723评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,080评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,604评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,440评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,431评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,499评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,893评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,541评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,751评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,547评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,619评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,320评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,890评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,896评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,137评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,796评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,335评论 2赞 342

用 Intel Analytics Zoo/BigDL 为客服平台添加 AI 的实践（一）

推荐阅读更多精彩内容