beam search原理以及在NLP中应用

Beam Search 简介

一、概要

传统的广度优先策略能够找到最优的路径，但是在搜索空间非常大的情况下，内存占用是指数级增长，很容易造成内存溢出，因此提出了beam search的算法。

beam search尝试在广度优先基础上进行进行搜索空间的优化（类似于剪枝）达到减少内存消耗的目的。

二、Beam Search算法新的概念

为了达到搜索的目的，beam search 引入了启发函数的概念（h) 来估计从当前节点到目标节点的损失。

启发函数可以使搜索算法只保存能够到达目标节点的节点

beam widthB每一层(each level)广度优先搜索算法保存的节点数目。

可以防止程序内存溢出，并加快搜索速度。

BEAM 作用类似于open list，用于保存下一轮扩展的节点

SET 保存BEAM中的所有的后续节点，是启发函数的输入空间。

a hash table 作用类似于close list，用于保存所有已经访问过的节点

三、算法流程

将开始节点（start）增加到BEAM和hash table

循环遍历BEAM的所有后续节点增加到SET中，并清空BEAM

从SET中选择B个启发函数值最优的节点增加到BEAM及hash table中（已经存在hash table中的节点不能增加）

以上过程循环持续进行指导找到目标节点或hash table 满了或主循环结束后BEAM为空（没有找到解）

四、伪代码

/* initialization */

g = 0;

hash_table = { start };

BEAM = { start };

/* main loop */

while(BEAM ≠ ∅){ // loop until the BEAM contains no nodes

    SET = ∅; // the empty set

    /* generate the SET nodes */

    for(each state in BEAM){

        for(each successor of state){

            if(successor == goal) return g + 1;

            SET = SET ∪ { successor }; // add successor to SET

        }

    }

    BEAM = ∅; // the empty set

    g = g + 1;

    /* fill the BEAM for the next loop */

    while((SET ≠ ∅) AND (B > |BEAM|)){ // set is not empty and the number of nodes in BEAM is less than B

        state = successor in SET with smallest h value;

        SET = SET \ { state }; // remove state from SET

        if(state ∉ hash_table){ // state is not in the hash_table

            if(hash_table is full) return ∞;

            hash_table = hash_table ∪ { state }; // add state to hash_table

            BEAM = BEAM ∪ { state }; // add state to BEAM

        }

    }

}

// goal was not found, and BEAM is empty - Beam Search failed to find the goal

return ∞;

五、beam search example

说明

一下样例都是用两行代表一次主循环执行过程。

两行中的第一行显示增加到SET中的nodes（字母顺序）

第二行显示的是从SET中增加到BEAM中的节点

两行后都有一个hash table显示其状态(hash table 只有7slots，表示可用内存的大小)

以下每一个例子对B取不同的值，并且只展示了四步，用来展示beam search的优势跟不足

beamsearch 目标是从I-> B

搜索的图

exmple 1B= 1,展示Beam search 的不足，找不到解

此时BEAM 为空，导致搜索失败。

因此B的选择非常重要。

exmple 2B= 2 搜索到非最优值

exmple 3B= 3,找到最优值，并且内存没有溢出

exmple 4B= 4 内存占用过多

第二步时造成内存溢出，搜索失败。

beam search 在NLP decode时的应用场景

在sequence2sequence模型中，beam search的方法只用在测试的情况，因为在训练过程中，每一个decoder的输出是有正确答案的，也就不需要beam search去加大输出的准确率。

test的时候，假设词表大小为3，内容为a，b，c。beam size是decoder解码的时候：

1：生成第1个词的时候，选择概率最大的2个词，假设为a,c,那么当前序列就是a,c

2：生成第2个词的时候，我们将当前序列a和c，分别与词表中的所有词进行组合，得到新的6个序列aa ab ac ca cb cc,然后从其中选择2个得分最高的，作为当前序列，假如为aa cb

3：后面会不断重复这个过程，直到遇到结束符为止。最终输出2个得分最高的序列。

注意:这里面的具体做法是每次将beam size个结果再分别输入到decoder中得到不同路径！这是beam search基础算法在decode中应用时的具体改动。

参考：

https://www.zhihu.com/question/54356960

blog.csdn.net/xljiulong/article/details/51554780

https://zhuanlan.zhihu.com/p/28048246

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342