richard sutton 老师, 所谓 "时间差分学习" 算法 (temporal difference learning)的发明人,现为加拿大 alberta 大学计算机系教授。td learning 不断预测未来的回报,并和实际观察回报比较,然后实时修正对未来的预测。科学家发现人脑多巴胺 (dopamine)释放的速率,可以用 td learning 的模型解释。如果当下获得的回报远大于预期,多巴胺就释放的多,人就狂喜。但同时大脑会调整对未来回报的期许,所以经过一定时间段后,实际回报和预期回报差距变小,多巴胺释放速率也减小。这也是为什么幸福快乐无法持久的原因,因为大脑期望值已经改变,同样的东西不会诱导更多的多巴胺了。
期望与幸福感
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 作者:曾宣凯 原文转载自:腾讯GAD游戏开发者平台 前言:我曾在大学时看了上百本国外战略学与军事理论专著,感悟到了...