您当前的位置:钢材 > 建筑钢材 > 市场分析

纳什均衡:每个人都进行自利行为的时候

来源:网络整理 作者: wujiai
分享到
关注德勤钢铁网在线:
  • 扫描二维码

    关注√

    德勤钢铁网微信

在线咨询:
  • 扫描或点击关注德勤钢铁网在线客服

我在知乎的纳什均衡回答中看到了这个观点:

1、《三剑客》中的名言:一切为一,一为一切(人人为我,我为人人),我的理解是高尚的战士通过利己和利他的行为来实现共同的目标。

2、亚当·斯密提出手理论时的基本前提:当市场中的每个人都进行利己行为时,客观上来说,市场(或社会)的整体福利将会提高。

纳什均衡恰恰否定了之前的观点,我想这就是这个理论如此出名的原因:

当市场中的每个人都以利己的方式行事时,客观地讲,市场(或社会)的整体福利不可能是最优的。

纳什均衡(Nash)是一种策略组合,其中任何参与者都无法通过单独行动来增加收益。

典型的例子就是囚徒困境。 囚徒困境是一种非零和博弈,反映出个人的最佳选择并非群体的最佳选择。 换句话说,在一个群体中,个人做出的理性选择往往会导致集体非理性。 总体思路是:对同一案件的两名犯罪嫌疑人分别进行审讯。 警察分别告诉两名犯人,如果你坦白而对方不坦白,你会立即被释放,对方会被判十年; 如果两人都招供,将被判处十年徒刑。 两人均被判处两年徒刑。 如果两人都不招供的话,那是最有利的,只判半年徒刑。 于是,两人都陷入了坦白与不坦白的两难境地。 但两人无法沟通,所以都基于自己的兴趣和理性选择了坦白。 这种情况称为纳什均衡。 此时,个体的理性利益选择与整体的理性利益选择是不一致的。

囚犯的游戏矩阵 囚犯 A

坦白还是不坦白

犯人B认罪

每人均被判处两年徒刑

A被判十年徒刑,B立即释放

不肯承认

A被立即释放,B被判处十年徒刑

每人均被判处半年徒刑

基于经济学中“理性经济人”的前提,两名囚犯为了自身利益的选择就是坦白。 如果不招供,双双被判半年,本来对双方都有利的策略就不可能实现。 事实上,两人都选择认罪策略并被判处两年徒刑的结果被称为“纳什均衡”(也称为非合作均衡)。 换句话说,在这种情况下,任何玩家都无法“单独行动”(即单方面改变决定)并增加收获。

目前经济学家讨论的博弈论一般指的是非合作博弈,因为合作博弈论比非合作博弈论更为复杂。 非合作博弈又分为:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。 上述四种博弈对应的均衡概念为:纳什均衡、子博弈细化纳什均衡(纳什)、贝叶斯纳什均衡、细化贝叶斯纳什均衡(纳什)。

纳什与差异

纳什包括,子博弈完全均衡一定是纳什均衡,但有些纳什均衡不一定是子博弈完全均衡; 其次,子博弈是基于动态博弈定义的均衡(当然,纳什均衡也可以用于动态),一个子博弈的完全均衡在其任意一个子博弈中也构成纳什均衡(这是细化纳什均衡的一个条件) )。 如果一个纳什均衡在其子博弈中不再是纳什均衡,则它不是子博弈完备的(所谓子博弈上的策略组合是指原博弈的策略组合中保留在子博弈中的策略组合) )。

从行为的时间顺序来看,博弈论进一步分为两类:

静态游戏:游戏中,参与者同时做出选择;

动态博弈(game):也称顺序博弈。 在游戏中,参与者的动作是连续的,后面的参与者可以观察到前面的参与者所选择的动作。 常用逆向归纳法( )来求解。

通俗理解:《囚徒困境》是静态游戏,同时做出决策; 而国际象棋、围棋、围棋等棋牌游戏则有顺序的决策或动作,是动态博弈。

囚徒困境的主要思想是,囚犯之间互相合作、说真话可以给所有人带来最大利益(无罪释放),但当他们无法沟通时,背叛同谋却可以给自己带来好处(缩短监狱时间)学期)。 ),又因为招募同伙可以给他带来好处,所以背叛对方是违背最大共同利益的,但却符合他自己的最大利益。

一次囚徒困境的结果与多次囚徒困境的结果并不相同。

在重复的囚徒困境中,游戏会一遍又一遍地进行。 因此,每个玩家都有机会“惩罚”另一个玩家在上一轮中的不合作行为。 此时,合作可能会成为一种均衡结果。 然后,欺骗的动机可能会被惩罚的威胁所克服,这可能会带来更好的合作结果。 当数量反复接近无穷大时,纳什均衡趋于帕累托最优。 帕累托最优可以是合作博弈,而纳什均衡只能是非合作博弈。

帕累托最优性(,帕累托最优性),也称为帕累托效率(,),是指资源配置的一种理想状态。 给定一组固有的人群和可分配的资源,如果从一种分配状态到另一种分配状态的变化使至少一个人的境况变得更好,而不使任何人的境况变得更糟,这就是帕累托改进。 帕累托最优状态是一种不可能再有帕累托改进的状态。 换句话说,不可能在不伤害其他人的情况下改善某些人的处境。

需要指出的是,帕累托最优只是各种理想状态标准中的“最低标准”。 也就是说,如果一个国家没有达到帕累托最优,那么它一定是不理想的,因为还有改进的空间,可以提高一部分人的福利而不伤害任何人。 但达到帕累托最优的状态并不一定是真正的“理想”。 例如,假设一个社会中只有一个百万富翁和一个快要饿死的乞丐。 如果百万富翁捐出其财富的万分之一,后者就可以免于死亡。 但由于这种财富的自由转移损害了富人的福利(假设乞丐没有什么可以偿还富人的资源或服务),所以使得这种财富转移并不是帕累托改进,而这只有一个百万富翁一个乞丐饿死的社会可以被认为是帕累托最优的。 (这可以与古典功利主义的标准进行比较。按照功利主??义的标准,理想的国家是人们总福利最大化的国家。富人如果损失很少的福利,就可以大大增加乞丐的福利。福利,这样它就避免了死亡,那么社会的总福利就增加了,所以从功利主义的角度来看,这样的财富转移是一种进步,而极端不平等的初始状态并不理想,因为它的总福利较低。可见,帕累托改进要求在提高部分人的福利时不能减少任何一个人的福利,而功利主义则允许减少部分人的福利以增加总福利。)

经济理论认为,如果市场是完全的、充分竞争的,市场交换的结果一定是帕累托最优,并且同时满足以下三个条件:

交换最优性:即使有另一笔交易,个人也无法从中获得更大的利益。 此时,对于任意两个消费者,任意两种商品的边际替代率相同,两个消费者的效用同时最大化。

生产最优性:经济必须处于自己的生产可能性边界上。 此时,对于任意两个生产不同产品的生产者,需要投入的两个生产要素的边际技术替代率(MRTS)相同,两个生产者的产出同时最大化。

最佳产品组合:经济体生产的产品组合必须反映消费者的偏好。 此时,任何两种商品之间的边际替代率必须与任何生产者在两种商品之间的边际产品转化率(MRT)相同。

如果经济不是帕累托最优,那么在某些情况下,一些人可以使自己的境况变得更好,而不会让其他人的境况变得更糟。 人们普遍认为需要避免这种低效率的产出情况,因此帕累托最优性是评价经济和政治政策的一个非常重要的标准。

然而,正如上文所指出的,帕累托最优的经济制度只是“最小”意义上的“理想”,并不能保证不会出现贫困或严重的贫富差距。

回到最初的囚徒困境,这个博弈的纳什均衡显然不是考虑群体利益的帕累托最优解。 从整体利益来看,如果双方合作并保持沉默,两人都只会被判半年徒刑。 整体利益更高,结果比两人互相背叛,被判5年有期徒刑要好。 但根据上述假设,两人都是理性个体,只追求自己的个人利益。 均衡情况是两名囚犯都选择叛逃。 其结果是,两者的刑期均高于合作,而总体效益又低于合作。 这就是“困境”所在。 该例子有效地证明了在非零和博弈中,帕累托最优性与纳什均衡是相互冲突的。

现实中,人类社会和自然界中都可以找到类似囚徒困境的例子:

政治学例子:军备竞赛

在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。 两国都可以声称有两种选择:增加军备(叛逃),或达成削减军备协议(合作)。 两国都不能确定对方会遵守协议,因此两国最终都会倾向于增加军备。 矛盾的是,尽管增加军备对两国来说都是“理性”行为子博弈精炼纳什均衡,但其后果却显得“非理性”(例如,对经济的损害等)。 这可以看作是遏制论的必然结果,即用强大的军事力量遏制对手的进攻,以实现和平。

经济学例子:关税战

两国在关税方面有两种选择:

提高关税以保护自己的商品。 (背叛)

相互达成关税协议,降低关税,便利各自商品的流通。 (合作)

当一国因某些因素不遵守关税协议而单独提高关税(叛逃)时,另一国也会以同样的方式回应(也叛逃),从而引发关税战,两国的商品失去市场份额。别人的市场。 ,也对自身经济造成损害(共同背叛的结果)。 随后两国重新达成关税协议。 (反复博弈的结果是,会发现共同合作的收益最大。)

商业案例:广告战

囚徒困境的各种例子也出现在商业活动中。 以广告竞争为例。

两家公司相互竞争,两家公司的广告也互相影响。 也就是说,如果一家公司的广告更容易被客户接受,就会带走另一家公司的部分收入。 但如果两家公司同时发布质量相似的广告,其收入会略有增加,但成本会增加。 但如果广告质量不提高,生意就会被对方抢走。

这两家公司有两个选择:

双方达成协议,减少广告支出。 (合作)

加大广告支出,努力提高广告质量,压倒对手。 (背叛)

如果两家公司互不信任,无法合作,背叛成为占优策略,两家公司就会陷入广告战,广告费用的增加会损害两家公司的利润。 这是囚徒困境。 现实中,两家竞争的企业很难达成合作协议,大多会陷入囚徒困境。

纳什均衡:这是第一人称视角状态。 在这种状态下,我首先分析一下自己。 因为无论我使用什么策略都不能让自己变得更有效,所以我并不关心使用各种策略时对他人的影响。 因为我已经做到了最好,我无意去伤害别人。 如果每个人都达到和我一样的状态,那么这个状态就叫做纳什均衡。

帕累托最优:这是一种第三人称视角(上帝视角)的状态。 假设我是上帝,我有能力让游戏中的每一个玩家都听从我的安排,选择策略。 我的任务是在给定条件下最大化每个玩家的个人效用。 因此,在为每个玩家安排策略的过程中,难免会出现一种状态。 这种状态就是我想让一个人的效用最大化。 越大,那么至少另一个人的效用就会减少。 在我不同的战略安排下,会有不同的帕累托最优状态。 对于每个球员来说,他无法抗拒我的安排,但他可能有动机去伤害别人来提高自己的效率。

什么,还是不明白? 用通俗的语言解释一下,纳什均衡是普通人生活的和谐社会,而帕累托最优则是上帝建造的伊甸园。 生活在纳什均衡中的人都是“善良的人”。 那些生活在帕累托最优状态的人是“有反抗动机的顺从者”。

责任编辑:德勤钢铁网 标签:纳什均衡:每个人都进行自利行为的时候

热门搜索

相关文章

广告
德勤钢铁网 |市场分析

纳什均衡:每个人都进行自利行为的时候

wujiai

|

我在知乎的纳什均衡回答中看到了这个观点:

1、《三剑客》中的名言:一切为一,一为一切(人人为我,我为人人),我的理解是高尚的战士通过利己和利他的行为来实现共同的目标。

2、亚当·斯密提出手理论时的基本前提:当市场中的每个人都进行利己行为时,客观上来说,市场(或社会)的整体福利将会提高。

纳什均衡恰恰否定了之前的观点,我想这就是这个理论如此出名的原因:

当市场中的每个人都以利己的方式行事时,客观地讲,市场(或社会)的整体福利不可能是最优的。

纳什均衡(Nash)是一种策略组合,其中任何参与者都无法通过单独行动来增加收益。

典型的例子就是囚徒困境。 囚徒困境是一种非零和博弈,反映出个人的最佳选择并非群体的最佳选择。 换句话说,在一个群体中,个人做出的理性选择往往会导致集体非理性。 总体思路是:对同一案件的两名犯罪嫌疑人分别进行审讯。 警察分别告诉两名犯人,如果你坦白而对方不坦白,你会立即被释放,对方会被判十年; 如果两人都招供,将被判处十年徒刑。 两人均被判处两年徒刑。 如果两人都不招供的话,那是最有利的,只判半年徒刑。 于是,两人都陷入了坦白与不坦白的两难境地。 但两人无法沟通,所以都基于自己的兴趣和理性选择了坦白。 这种情况称为纳什均衡。 此时,个体的理性利益选择与整体的理性利益选择是不一致的。

囚犯的游戏矩阵 囚犯 A

坦白还是不坦白

犯人B认罪

每人均被判处两年徒刑

A被判十年徒刑,B立即释放

不肯承认

A被立即释放,B被判处十年徒刑

每人均被判处半年徒刑

基于经济学中“理性经济人”的前提,两名囚犯为了自身利益的选择就是坦白。 如果不招供,双双被判半年,本来对双方都有利的策略就不可能实现。 事实上,两人都选择认罪策略并被判处两年徒刑的结果被称为“纳什均衡”(也称为非合作均衡)。 换句话说,在这种情况下,任何玩家都无法“单独行动”(即单方面改变决定)并增加收获。

目前经济学家讨论的博弈论一般指的是非合作博弈,因为合作博弈论比非合作博弈论更为复杂。 非合作博弈又分为:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。 上述四种博弈对应的均衡概念为:纳什均衡、子博弈细化纳什均衡(纳什)、贝叶斯纳什均衡、细化贝叶斯纳什均衡(纳什)。

纳什与差异

纳什包括,子博弈完全均衡一定是纳什均衡,但有些纳什均衡不一定是子博弈完全均衡; 其次,子博弈是基于动态博弈定义的均衡(当然,纳什均衡也可以用于动态),一个子博弈的完全均衡在其任意一个子博弈中也构成纳什均衡(这是细化纳什均衡的一个条件) )。 如果一个纳什均衡在其子博弈中不再是纳什均衡,则它不是子博弈完备的(所谓子博弈上的策略组合是指原博弈的策略组合中保留在子博弈中的策略组合) )。

从行为的时间顺序来看,博弈论进一步分为两类:

静态游戏:游戏中,参与者同时做出选择;

动态博弈(game):也称顺序博弈。 在游戏中,参与者的动作是连续的,后面的参与者可以观察到前面的参与者所选择的动作。 常用逆向归纳法( )来求解。

通俗理解:《囚徒困境》是静态游戏,同时做出决策; 而国际象棋、围棋、围棋等棋牌游戏则有顺序的决策或动作,是动态博弈。

囚徒困境的主要思想是,囚犯之间互相合作、说真话可以给所有人带来最大利益(无罪释放),但当他们无法沟通时,背叛同谋却可以给自己带来好处(缩短监狱时间)学期)。 ),又因为招募同伙可以给他带来好处,所以背叛对方是违背最大共同利益的,但却符合他自己的最大利益。

一次囚徒困境的结果与多次囚徒困境的结果并不相同。

在重复的囚徒困境中,游戏会一遍又一遍地进行。 因此,每个玩家都有机会“惩罚”另一个玩家在上一轮中的不合作行为。 此时,合作可能会成为一种均衡结果。 然后,欺骗的动机可能会被惩罚的威胁所克服,这可能会带来更好的合作结果。 当数量反复接近无穷大时,纳什均衡趋于帕累托最优。 帕累托最优可以是合作博弈,而纳什均衡只能是非合作博弈。

帕累托最优性(,帕累托最优性),也称为帕累托效率(,),是指资源配置的一种理想状态。 给定一组固有的人群和可分配的资源,如果从一种分配状态到另一种分配状态的变化使至少一个人的境况变得更好,而不使任何人的境况变得更糟,这就是帕累托改进。 帕累托最优状态是一种不可能再有帕累托改进的状态。 换句话说,不可能在不伤害其他人的情况下改善某些人的处境。

需要指出的是,帕累托最优只是各种理想状态标准中的“最低标准”。 也就是说,如果一个国家没有达到帕累托最优,那么它一定是不理想的,因为还有改进的空间,可以提高一部分人的福利而不伤害任何人。 但达到帕累托最优的状态并不一定是真正的“理想”。 例如,假设一个社会中只有一个百万富翁和一个快要饿死的乞丐。 如果百万富翁捐出其财富的万分之一,后者就可以免于死亡。 但由于这种财富的自由转移损害了富人的福利(假设乞丐没有什么可以偿还富人的资源或服务),所以使得这种财富转移并不是帕累托改进,而这只有一个百万富翁一个乞丐饿死的社会可以被认为是帕累托最优的。 (这可以与古典功利主义的标准进行比较。按照功利主??义的标准,理想的国家是人们总福利最大化的国家。富人如果损失很少的福利,就可以大大增加乞丐的福利。福利,这样它就避免了死亡,那么社会的总福利就增加了,所以从功利主义的角度来看,这样的财富转移是一种进步,而极端不平等的初始状态并不理想,因为它的总福利较低。可见,帕累托改进要求在提高部分人的福利时不能减少任何一个人的福利,而功利主义则允许减少部分人的福利以增加总福利。)

经济理论认为,如果市场是完全的、充分竞争的,市场交换的结果一定是帕累托最优,并且同时满足以下三个条件:

交换最优性:即使有另一笔交易,个人也无法从中获得更大的利益。 此时,对于任意两个消费者,任意两种商品的边际替代率相同,两个消费者的效用同时最大化。

生产最优性:经济必须处于自己的生产可能性边界上。 此时,对于任意两个生产不同产品的生产者,需要投入的两个生产要素的边际技术替代率(MRTS)相同,两个生产者的产出同时最大化。

最佳产品组合:经济体生产的产品组合必须反映消费者的偏好。 此时,任何两种商品之间的边际替代率必须与任何生产者在两种商品之间的边际产品转化率(MRT)相同。

如果经济不是帕累托最优,那么在某些情况下,一些人可以使自己的境况变得更好,而不会让其他人的境况变得更糟。 人们普遍认为需要避免这种低效率的产出情况,因此帕累托最优性是评价经济和政治政策的一个非常重要的标准。

然而,正如上文所指出的,帕累托最优的经济制度只是“最小”意义上的“理想”,并不能保证不会出现贫困或严重的贫富差距。

回到最初的囚徒困境,这个博弈的纳什均衡显然不是考虑群体利益的帕累托最优解。 从整体利益来看,如果双方合作并保持沉默,两人都只会被判半年徒刑。 整体利益更高,结果比两人互相背叛,被判5年有期徒刑要好。 但根据上述假设,两人都是理性个体,只追求自己的个人利益。 均衡情况是两名囚犯都选择叛逃。 其结果是,两者的刑期均高于合作,而总体效益又低于合作。 这就是“困境”所在。 该例子有效地证明了在非零和博弈中,帕累托最优性与纳什均衡是相互冲突的。

现实中,人类社会和自然界中都可以找到类似囚徒困境的例子:

政治学例子:军备竞赛

在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。 两国都可以声称有两种选择:增加军备(叛逃),或达成削减军备协议(合作)。 两国都不能确定对方会遵守协议,因此两国最终都会倾向于增加军备。 矛盾的是,尽管增加军备对两国来说都是“理性”行为子博弈精炼纳什均衡,但其后果却显得“非理性”(例如,对经济的损害等)。 这可以看作是遏制论的必然结果,即用强大的军事力量遏制对手的进攻,以实现和平。

经济学例子:关税战

两国在关税方面有两种选择:

提高关税以保护自己的商品。 (背叛)

相互达成关税协议,降低关税,便利各自商品的流通。 (合作)

当一国因某些因素不遵守关税协议而单独提高关税(叛逃)时,另一国也会以同样的方式回应(也叛逃),从而引发关税战,两国的商品失去市场份额。别人的市场。 ,也对自身经济造成损害(共同背叛的结果)。 随后两国重新达成关税协议。 (反复博弈的结果是,会发现共同合作的收益最大。)

商业案例:广告战

囚徒困境的各种例子也出现在商业活动中。 以广告竞争为例。

两家公司相互竞争,两家公司的广告也互相影响。 也就是说,如果一家公司的广告更容易被客户接受,就会带走另一家公司的部分收入。 但如果两家公司同时发布质量相似的广告,其收入会略有增加,但成本会增加。 但如果广告质量不提高,生意就会被对方抢走。

这两家公司有两个选择:

双方达成协议,减少广告支出。 (合作)

加大广告支出,努力提高广告质量,压倒对手。 (背叛)

如果两家公司互不信任,无法合作,背叛成为占优策略,两家公司就会陷入广告战,广告费用的增加会损害两家公司的利润。 这是囚徒困境。 现实中,两家竞争的企业很难达成合作协议,大多会陷入囚徒困境。

纳什均衡:这是第一人称视角状态。 在这种状态下,我首先分析一下自己。 因为无论我使用什么策略都不能让自己变得更有效,所以我并不关心使用各种策略时对他人的影响。 因为我已经做到了最好,我无意去伤害别人。 如果每个人都达到和我一样的状态,那么这个状态就叫做纳什均衡。

帕累托最优:这是一种第三人称视角(上帝视角)的状态。 假设我是上帝,我有能力让游戏中的每一个玩家都听从我的安排,选择策略。 我的任务是在给定条件下最大化每个玩家的个人效用。 因此,在为每个玩家安排策略的过程中,难免会出现一种状态。 这种状态就是我想让一个人的效用最大化。 越大,那么至少另一个人的效用就会减少。 在我不同的战略安排下,会有不同的帕累托最优状态。 对于每个球员来说,他无法抗拒我的安排,但他可能有动机去伤害别人来提高自己的效率。

什么,还是不明白? 用通俗的语言解释一下,纳什均衡是普通人生活的和谐社会,而帕累托最优则是上帝建造的伊甸园。 生活在纳什均衡中的人都是“善良的人”。 那些生活在帕累托最优状态的人是“有反抗动机的顺从者”。


市场分析