机器博弈 (一) 入门简介

现代博弈论建立

现代博弈论的建立得从1944年算起，1944年冯·诺依曼的《博弈论与经济行为》以数学形式来阐述博弈论及其应用，标志着现代系统博弈理论的初步形成。冯·诺依曼被称为现代博弈论之父。

Theroy Of Game And Economic Behavior

博弈论(game theory)，也被称为对策论。博弈者在博弈过程中的行为(action)被称作博弈行为。

博弈行为解释：带有相互竞争性质的主体，为了达到各自目标和利益，采取的带有对抗性质的行为。

博弈论主要研究博弈行为中最优的对抗策略及其稳定局势，协助人们在一定规则范围内寻求最合理的行为方式。

博弈的要素

参与者或玩家(player)：指的是参与博弈的决策主体。
策略(strategy)：参与者可以采取的行动方案，是一整套在采取行动之前就已经准备好的完整方案。
- 某个参与者可采纳策略的全体组合形成了策略集(strategy set)。
- 所有参与者各自采取行动后形成的状态被称为局势(outcome)。
- 如果参与者可以通过一定概率分布来选择若干不同的策略，这样的策略被称为混合策略(mixed strategy)。
- 若参与者每次行动都选择某个确定的策略，这样的策略称为纯策略(pure strategy)。
收益(pay off)：各个参与者在不同局势下得到的收益。
- 混合策略参与者采取的策略是按概率分布出现的，所以混合策略意义下的收益应为期望收益(expected payoff)。
规则(rule)：指的是对参与者行动的先后顺序、参与者获得信息多少等内容的规定。

博弈论研究的基本范式

博弈论研究的基本范式：建模者对参与者(player)规定两样东西：1.可采取的策略集(strategy sets)；2. 取得的收益。观察：当参与者选择若干策略以最大化其收益时会产生什么结果。最终要实现：两害相权取其轻，两利相权取其重。

囚徒困境

警方逮捕了共同犯罪的甲、乙两人，由于警方没有掌握充分证据，所以将两人分开审讯。假定条件：

若一人认罪并指证对方，而另一方保持沉默，则此人会被当即释放，沉默者会被监禁10年；
若两人都保持沉默，则根据已有的犯罪事实(无充分证据)两人各判半年；
若两人都认罪并相互指证，则两人各判5年。

参与者：甲、乙。

规则：甲、乙两人分别决策，无法得知对方的选择。

策略集：认罪、沉默(纯策略)。

	乙沉默	乙认罪
甲沉默	二人各服刑半年	乙被释放，甲服刑10年
甲认罪	甲被释放，乙服刑10年	二人各服刑5年

在囚徒困境中，最优解为两人同时沉默，但是两人实际倾向于选择同时认罪(均衡解)。

囚徒困境均衡解产生的原因：对两人而言认罪的收益在任何情况下都比沉默的收益高，所以两人同时认罪是一个稳定的局势。

囚徒困境表明稳定局势并不一定是最优局势。

博弈分类

合作博弈与非合作博弈
- 合作博弈(cooperative game)：部分参与者可以组成联盟以获得更大的收益。
- 非合作博弈(non-cooperative game)：参与者在决策中都彼此独立，不事先达成合作意向。

静态博弈与动态博弈
- 静态博弈(static game)：所有参与者同时决策，或参与者互相不知道对方决策。
- 动态博弈(dynamic game)：参与者所采取行为的先后顺序由规则决定，且后行动者知道先行动者采取的行为。
完全信息博弈与不完全信息博弈：
- 完全信息(complete information)：所有参与者均了解其他参与者的策略集、收益等信息。
- 不完全信息(incomplete information)：并非所有参与者均掌握了所有信息。

囚徒困境是一种非合作、不完全信息的静态博弈。

纳什均衡

在博弈论中有一个重要的概念：纳什均衡。

博弈的稳定局势即为纳什均衡(Nash equilibrium)：指的是参与者所作出的这样一种策略组合，在该策略组合上，任何参与者单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。
Nash定理：若参与者有限，每位参与者的策略集有限，收益函数为实值函数，则博弈必存在混合策略意义下的纳什均衡。
囚徒困境中两人同时认罪就是这一问题的纳什均衡。

纳什均衡的本质就是不后悔。

混合策略下纳什均衡的例子

即参与者于一定概率选择策略。混合策略纳什均衡：博弈过程中，博弈方通过概率形式随机从可选策略中选择一个策略而达到的纳什均衡被称为混合策略纳什均衡。

例子：公司的雇主是否检查工作与雇员是否偷懒。假定 $V$ 是雇员的贡献， $W$ 是雇员的工资， $H$ 是雇员的付出， $C$ 是检查的成本， $F$ 是雇主发现雇员偷懒对雇员的惩罚(没收抵押金)。
假定 $H<W<V$ ， $W>C$ 。

image

这里的参与者：

雇员、雇主

规则：

雇员与雇主两人分别决策，事先无法得知对方的选择。

混合策略集：

雇员：偷懒、不偷懒
雇主：检查、不检查

若雇主检查的概率为 $\alpha$ ，雇员偷懒的概率为 $\beta$ 。

收益表

由纳什均衡：其他参与者策略不变的情况下，某个参与者单独采取其他策略都不会使得收益增加。也就等价于无论雇主是否检查，雇员的收益都一样；无论雇员是否偷懒，雇主的收益也都一样。

于是有 $T_{1}=T_{2}$ 以及 $T_{3}=T_{4}$ 。

在纳什均衡下，由于 $T_{3}=T_{4}$ ，可知雇主采取检查策略的概率(雇主趋向于用这个概率去检查)：

$\alpha = \frac{H}{W+F}$

在纳什均衡下，由于 $T_{1}=T_{2}$ ，可知雇员采取偷懒策略的概率(雇员趋于用这个概率去偷懒)：

$\beta = \frac{C}{W+F}$

在检查概率为 $\alpha$ 之下，雇主的收益：

$T_{1}=T_{2}=V-W-\frac{CV}{W+F}$

对上式 $W$ 求导，则当 $W=\sqrt{CV}-F$ 时，雇主的收益最大，其值为： $T_{max}=V-2\sqrt{CV}+F$ 。

由混合策略下纳什均衡可知，雇主和雇员分别倾向于以某种概率采取策略。

我的微信公众号名称：深度学习与先进智能决策
微信公众号ID：MultiAgent1024
公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

最后编辑于：2020.02.04 15:22:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343