解读一PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM

之前强化学习理论给予了神经科学以灵感和启发:

最近在理解奖励驱动学习所涉及的机制方面取得了令人振奋的进展。这一进展部分是通过输入强化学习领域(RL)的思想来实现的。最重要的是,这种输入导致了基于RL的多巴胺能功能理论。在这里,相位多巴胺(DA)释放被解释为传达奖励预测误差(RPE)信号,这是在时间差RL算法中集中计算的意外指数。根据该理论,RPE驱动纹状体中的突触可塑性,将经验丰富的动作

- 奖励关联转化为优化的行为政策。在过去二十年中,该提案的证据稳步增加,将其作为奖励驱动学习的标准模型。

近期神经科学在前额皮质(PFC)的研究有了新发现又可以反过来指引RL:

前额皮质(PFC)研究引发了一个窘境。越来越多的证据表明,PFC实施了基于奖励的学习机制,执行与基于DA的RL相似的计算。它早已确立

PFC的各个部分代表着行动,对象和状态的期望值。最近,PFC中也出现了最近的行动和奖励的历史序列。编码的变量集以及关于PFC中神经激活的时间分布的观察结果得出结论:“PFC神经元动态[编码]转换来自奖励和

选择的历史

到对象值,从对象值到对象选择“。简而言之,PFC中的神经活动似乎反映了一组操作,它们共同构成了一个独立的RL算法。在DA旁边放置PFC,我们获得了一个包含两个完整RL系统的图片,一个利用基于活动的表示,另一个是有关突触的学习

接下来,看这两个基于DA和PFC的强化学习如何整合:

他俩系统之间有什么关系?如果两者都支持RL,那么它们的功能是多余的?一个建议是DA和PFC提供不同形式的学习,其中DA实现基于直接刺激 - 响应关联的无模型RL,而PFC执行基于模型的RL,其利用任务结构的内部表示。然而,这种双系统视图的一个明显问题是重复观察到DA预测误差信号是由任务结构告知的,反映了“推断的”和“基于模型的”值估计很难与原始框架的标准理论。

论文中几个实验通过这个框架达到了他们各自的任务目的,下面具体地,由论文的simulation4来讲解一下,这是一个什么样的任务,又用什么样的架构解决了这个任务的问题:

下面说它用的什么框架:

这样训练完成它解决了什么问题:

当有一个新的序列输入时候,模型能分辨出这是哪一个任务,从而得出接下来该执行什么动作。更具体地说:比如上一个奖励是1,动作是A1,经过这个模型它能知道这个奖励是通过common 还是uncommon transition 得到的,(s0到s1再到奖励1是大概率跳转时称为common transition,是通过小概率跳转得到的奖励成为uncommon transition.因此,当通过模型知道奖励1是通过common transition得到时,模型知道接下来要多重复这个动作能得到更多奖励(论文中重复概率称为stay probability )。同样地,如果执行动作A2也得到奖励了1,但是模型学会了这是uncommon transition,它不会重复A2这个动作。同样都是得到奖励1,通过这个模型才可以知道该不该跟着干这个动作以或者更多奖励。 这就是这个模型要学到的最终效果,这个任务的效果,从另一个角度来说,是用RNN达到了world base的效果,尽管它并没有训练一个world 模型。

原文:Another

important setting where structure-sensitive DA signaling has been

observed is in tasks designed to probe for model-based control.

总结并强调这个新模型的本质

这种以前额皮质(PFC)的机制来建模的metal

rl

leaning,主要利用了PFC中发现的功能,它会吸收奖励和动作的历史序列,把这个序列encode为某种任务结构的内部表示。所以1,这个模型可以用于训练基于相同结构的多种任务上。所以2,训练完成后,你输入一个新的序列,这个模型能通过这个序列得到对应任务的内部结构表示,从而知道目前到底是哪个任务,从而给出针对这个任务该有的policy.

下面这个是代码链接:

https://github.com/mtrazzi/two-step-task

PS:请大概看过论文再看解读,如果有想法和疑问欢迎交流,我的微信号:Leslie27ch

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容