如何将Bert句向量应用于深度神经网络中

Bert开源了预训练的中文模型,如果你想直接使用Bert模型生成句子向量(当做一个黑盒),并用于深度学习模型中,本文将给出一个作者亲自实践的实例.本文内容只针对于实践,并不会对Bert的模型和理论进行任何介绍.

首先我们准备深度学习模型:
https://github.com/gaussic/text-classification-cnn-rnn
以该项目中的字符级CNN模型为例,下载数据后并根据Readme指导,模型很容易就能跑的通.

接下来准备Bert生成句子向量的模型,选用调用比较简单的这个项目:
https://github.com/terrifyzhao/bert-utils
Bert中文模型的下载地址为:
https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

一切准备就绪后,开始改造模型.必须明确的思路为,我们需要改的是网络的输入层和数据的预处理部分
text-classification-cnn-rnn中的cnn_model.py定义了网络的结构,我们先看网络的前几层

    def cnn(self):
        """CNN模型"""
        # 词向量映射
        with tf.device('/cpu:0'):
            embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
            embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)

        with tf.name_scope("cnn"):
            # CNN layer
            conv = tf.layers.conv1d(embedding_inputs, self.config.num_filters, self.config.kernel_size, name='conv')
            # global max pooling layer
            gmp = tf.reduce_max(conv, reduction_indices=[1], name='gmp')

其中的输入层为:
embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
用于创建一个新的变量embedding,随机生成self.config.vocab_size*self.config.embedding_dim尺寸的词嵌入张量
embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
用于将input_x映射为词向量的形式
我们需要重新定义网络的输入,所以需要对这部分进行修改.

        with tf.device('/cpu:0'):
            # self.embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
            # self.embedding_inputs = tf.nn.embedding_lookup(self.embedding, self.input_x)
            self.embedding_inputs = tf.reshape(self.input_x, [-1,32,24])

由于bert对于每一句话,生成768维的向量,我们将768维的向量分解为3224的形式(或者2432或者其他乘积为768的分解形式),第一个维度是由input_x的batch决定的,所以设为-1,让reshape自己进行计算(注意,tf.reshape中最多只有一个维度能被设置为-1)
模型结构处理完之后,我们进行改造数据的预处理部分
数据的预处理在text-classification-cnn-rnn项目cnews文件夹下的cnews_loader中

from bert_utils.extract_feature import BertVector
bert = BertVector()

首先在cnews_loader中引入bert生成词向量的函数
之后对 process_file函数进行改造

def process_file(filename, word_to_id, cat_to_id, max_length=600):
    """将文件转换为id表示"""
    contents, labels = read_file(filename)
    x_pad = bert.encode(contents)
    data_id, label_id = [], []
    for i in range(len(contents)):
        # data_id.append([word_to_id[x] for x in contents[i] if x in word_to_id])
        label_id.append(cat_to_id[labels[i]])

    # 使用keras提供的pad_sequences来将文本pad为固定长度
    # x_pad = kr.preprocessing.sequence.pad_sequences(data_id, max_length)
    y_pad = kr.utils.to_categorical(label_id, num_classes=len(cat_to_id))  # 将标签转换为one-hot表示

    return x_pad, y_pad

舍弃之前的字典映射方式,将x_pad改为bert生成词向量的形式
之后对文件的读取函数进行改造

def read_file(filename):
    """读取文件数据"""
    contents, labels = [], []
    with open_file(filename) as f:
        for line in f:
            try:
                label = line.strip().split('\t')[0]
                content = line.strip().split('\t')[2]
                if content:
                    # normal
                    # contents.append(list(native_content(content)))
                    # bert
                    contents.append(content)
                    labels.append(native_content(label))
            except:
                pass
    return contents, labels

这样的话,数据预处理和模型结构就都改造完成了,整个项目就可以跑起来了

Training and evaluating...
Epoch: 1
Iter:      0, Train Loss:    1.7, Train Acc:  28.12%, Val Loss:    1.7, Val Acc:  21.73%, Time: 0:00:01 *
Iter:     40, Train Loss:    1.4, Train Acc:  41.41%, Val Loss:    1.4, Val Acc:  42.78%, Time: 0:00:02 *

我也是第一次做这种尝试,经验就是,要一步一步查看原有网络的每一层的输出的张量格式.遇到错误不要放弃,去谷歌查找错误的来源,有耐心得去不断调试.

\color{red}{(涉及公司机密,完整代码和数据无法提供,请见谅,纯原创,转载请注明来源)}

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容

  • 本文上两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier阅读 6,372评论 1 22
  • 本文另两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一级半 除了在word级别的embed...
    weizier阅读 6,552评论 0 18
  • 2018年5月25日星期五晴 这个星期和小女儿约定中午睡午觉,下午在小饭桌写作业时不随便说话,星...
    人生茶滋味阅读 203评论 2 1