博弈论

纳什均衡

纳什均衡指的是这样一种策略组合,即在给定别人策略的情况下,没有人愿意单方面改变自己的策略,从而打破这种均衡。
数学表示:

// 公式太长了,下次补上

纳什均衡的一致预测性质:
一致预测:
如果所有博弈方都预测一个特定博弈结果会出现,所有博弈方都不会选择与预测结果不一致的策略,即没有哪个博弈方有偏离这个预测结果的愿望,因此预测结果会成为博弈的最终结果。
只有纳什均衡才具有一致预测的性质。一致预测性是纳什均衡的本质属性。
一致预测并不意味着一定能准确预测,因为有多重均衡, 预测不一致的可能。

什么是博弈论

博弈论又称对策论,它使用严谨的数学模型研究 冲突对抗条件下的最优决策问题、是研究竞争的 逻辑和规律的数学分支。

简单的说,博弈论是研究决策主体在给定信息结 构条件下,如何决策以使自己的效用最大化,以及不同决策主体之间决策的均衡。

博弈的要素

参与人(玩家, Player, Agent):

是博弈的参与主体,他通过选择自己的行动 (策略)来使自己的 收益最大化。参与人可以是 自然人,企业,国家等。在基于博弈的优化算法中,参与人代表算法中的某个元素。

参与人的策略集:

是参与人可供选择的策略的集合。比如囚徒困境中的欺骗和合作。

收益 (效用,支付):

在给定的策略组合下,参与人得到的确定的效用水平,或是参与人得到的期望效用水平。收益由收益函数来计算。

行动:

参与人在博弈的某个时间点的策略变量。

行动的顺序:

在动态博弈中,行动的顺序对博弈的结果有重要影响。同样的策略集,行动的顺序不同,每个人的最优策略就不同,博弈的结果就不同。尤其在不完全信息博弈中,后行动者根据先行动者的行动来获取信息。

信息

参与人有关博弈的知识,特别是关于其它参与人的特征和行动的知识,以及自然的选择。
完美信息是指参与人对其它参与人的行动选择有准确的掌握。

共同知识:

所有参与人知道的每一步的信息集。

策略(战略)

  • 参与人在给定信息集情况下的行动规则,它规定参与人在 什么情况下选择什么行动。
  • 策略与行动:策略是行动的规则而不是行动本身。
  • 在静态博弈中,策略和行动是相同的。
  • 策略必须是完备的:必须给出参与人在每一种可能的情况下的行动选择。

均衡:

指所有参与人的最优策略组合

基于博弈的控制

  1. 合作博弈与非合作博弈
  2. 完全信息博弈与不完全信息博弈
  3. 静态博弈与动态博弈
    相互组合:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。
  4. 纯策略博弈与混合策略博弈

特征函数。。。。。。。。。。。。。

合作博弈

合作博弈亦称为正和博弈,是指博弈双方的利益都有所增加,或者至少是一方的利益增加,而另一方的利益不受损害,因而整个集体的利益有所
增加。
合作博弈研究人们达成合作时如何分配合作得到的收益,即收益分配问题。合作博弈采取的是一种合作的方式,或者说是一种妥协。
至于收益在博弈各方之间如何分配,取决于博弈各方的力量对比和技巧运用。因此,妥协必须经过博弈各方的讨价还价,达成共识,进行合作。

合作博弈存在的两个基本条件是:

  1. 对联盟来说,整体收益大于其每个成员单 独经营时的收益之和。
  2. 对联盟内部而言,应存在具有帕累托改进 性质的分配规则,即每个成员都能获得比不加入联盟时多一些的收益。

非合作博弈

在参与人利益相互冲突中如何选择策略使自己的收益最大,即策略选择问题。是一种不可能达成具有约束力的 协议的博弈类型。
零和博弈、负和博弈是非合作博弈。
囚徒困境是非合作博弈。

完全信息博弈:

是指每一参与者都拥有所有其他参与者的特征、策略及收益函数等方面的准确信息的博弈。
不完全信息博弈,参与人并不完全清楚有关博弈的一些信息。

静态博弈:

是指博弈中参与者同时采取行动,或者尽管参与者行动的采取有先后顺序,但后行动的人不知道先采取行动的人采取的是什么行动。

动态博弈:

动态博弈(dynamic game)是指参与人的行动有先后顺序,而且行动在后者可以观察到行动在先者的选择,并据此作出相应的选择。
不同的参与人在不同时间点行动,先行动者的选择影响后行动者的选择空间,后行动者可以观察到先行动者做了什么选择,因此,为了做最优的行动选择,每个参与人都必须这样思考问题:如果我如此选择,对方将如何应对?如果我是他,我将会如何行动?给定他的应对,什么是我的最优选择?

动态博弈的困难在于,在前一刻最优的决策在下一刻可能不再为最优,因此在求解上发生很大的困难。

  • 动态博弈的先动优势与后动优势
  • 在动态博弈中,行动总 有先后顺序。有些博弈具有先动优势(first-mover advantage), 但有些博弈具有后动优势(second-mover advantage)。例如日常我们所说的:“先下手为强,后下手遭殃”;“捷足先登”;“后发制人”、“后发优势”,等等。

纯策略博弈与混合策略博弈

在完全信息博弈中,如果在每个给定信息下,只能选择一种特定策略,这个策略为纯策略(purestrategy)。
如果在每个给定信息下只以某种概率选择不同策略,称为混合策略(mixed strategy)。混合策略是纯策略在空间上的概率分布,纯策略是混合策略的特例。纯策略的收益可以用效用表示,混合策略的收益只能以期望效用表示。


多重均衡与优化

  1. 占优策略与智猪博弈
  2. 博弈的多重纳什均衡
  3. 帕累托最优均衡
  4. 帕累托最优均衡与纳什均衡的关系
  5. 如何得到帕累托最优均衡

占优策略与智猪博弈

在参与人各自的策略集中,如果存在一个与其他竞争对手可能采取的策略无关的最优选择,则称其为占优策略(Dominant Strategy),与之相对的其他策略则为劣势策略。占优策略是博弈论(game theory)中的专业术语, 所谓的占优策略就是指无论博弈对手如何行动都属于本人最佳选择的策略。

占优策略和纳什均衡的比较

  • 占优策略:“不管你怎么做,我所做的都是我能做得最好的。”
  • 纳什均衡:
    • “给定你的做法后,我所做的是我能做得最好的。”
    • 如果你有占优策略, 你可以使用此策略, 以不变应万变;
    • 如果你没有占优策略, 你必须随机应变。在达到了纳什均衡之后, 所有参与者都没有动机想再变了。

许多博弈可能有多个纳什均衡。