关于妙趣横生博弈论的读后感

2023-04-05 来源：步旅网

　　博弈小术语：收益矩阵、均衡、纳什均衡、零和

　　博弈论，也称互动的决策论。它的基本假设之一是人是理性的。但现实并非如此，人不可能具有完备的知识也不可能时时理性。尽管如此，人们仍然乐意用博弈论的方法来解释和分析现实社会现象。

　　每一次的人际交往都可以简化成两个基本选择：合作或背叛。比如在前面的日志里提到的囚徒困境，在人际交往中普遍存在囚徒困境：双方明知合作能带来双赢，却因为理性的自私和信任的缺乏而导致合作难以形成。当一次性博弈出现时，人们往往会选择背叛。这在现实生活中也有很多例子，比如飞机场，为什么食品价格敢定那么高呢?因为它知道候机的乘客不会是它的长期客户。而当博弈的终点不可知时，就又是另一回事了。

　　在多次博弈中，背叛仍不可避免，但合作的几率会相比一次博弈有提高。至于如何更加有效地减少背叛，一种办法是引入惩罚机制，可以是带剑的法律或温和些的道德约束。现实中的集体活动等候上车问题就是个例子，让那些迟到的人自己负责任就是一种惩罚措施。

　　当然，如果在开头就有一些“善意”的人出来表明合作态度对提高合作机会也是有帮助的，不管这些“善意”的人是出于何种目的。一旦合作开始，人们就能体验到合作的好处，并乐于坚持一段时间。至于时间的长短，关键是看博弈的终点是否明确。这在上面也提到了，如果终点明确，人们就会倾向于在最后一次背叛。而当大家都知道对方会这样想时，倒数第二次就会成为新的终点，新的背叛。如此反复推演，合作从一开始就很难形成。注意上面的论述是基于没有惩罚机制的基础。

　　有一个很有意思的实验，是由爱克斯罗德完成的。这是一个计算机模拟竞赛，参赛的62位科学家递交了自己写的关于博弈策略的代码，同时加上爱克斯罗德本人写的一个随即策略代码，共63个。结果表明，“前15名中只有第8名是非善意的程序，最后15名只有一个善意的，夺魁的是“一报还一报策略”。

　　这个实力不凡的“一报还一报策略”就是对方选择什么我就回应什么，你合作我就合作，你背叛我也背叛。这种策略体现的是“善良、可激怒、宽容、简单”等好品质。虽然该策略在每次对局中分数都不能超过对手，但它的总分却是最高的。它赖以生存的基础很牢固。而那个非善意程序的成功是建立在别人的失败之上。可以想像，如果赋予这些程序以进化的基因，久而久之，非善意程序的存活率将下降。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

关于妙趣横生博弈论的读后感