賽局理論簡介(1)

前情提要:Let's play a game
之前曾介紹過義大利西恩納大學有一組致力於發展網路演化賽局理論(evolutionary games on networks, EGN)的團隊,藉由演化賽局理論(evolutionary game theory, EGT)導出適用於網路結構發展預測的分析工具。 然而要瞭解EGN,就得先瞭解EGT;要瞭解EGT,就必須對賽局理論(game theory)有基本認識。舌頭都要打結了,那今天先來認識一下賽局吧,順便讓Y編複習一下曾經修過的賽局理論囉。

賽局理論是一項分析決策行為的重要工具,也發展出十分多元的樣貌,在這裡僅介紹賽局最基本定義與應用。首先,傳統賽局理論分析是基於參與者(player)都是理性(rational)的假設,也就是說參與者會將面前所有可能性依自己的喜好排序, 進而使用有利於自己的策略(strategy),最大化報酬(payoff)。同時面對其他參與者,預測對手將採取的策略,將影響自己的決策。接著讓我們來看一個簡單的例子:

P1\P2 C D
C 2, 2 0, 3
D 3, 0 1, 1

上面這個賽局是十分知名的囚徒困境(prisoner's dilemma),行與列分別代表參與者P1、P2(囚犯1、囚犯2),每一種情況下的報酬以(uP1, uP2)的方法表示。 兩名囚犯因涉嫌共同犯下一起竊盜案而入獄,警方因證據不足將兩名囚犯隔離訊問,他們在認罪(D)與不認罪(C)兩種策略間選擇,如果兩者皆不認罪,則將因罪證不足而僅罰半年勞役,帶給兩人的報酬都是2; 若一人認罪另一人不認罪,認罪者得以獲釋,不認罪者將被加重至3年刑期,報酬分別為3與0;若兩者皆認罪則各維持1年刑責,報酬為1。很明顯的,對於兩人來說,不認罪(D)是最好選擇。 假設由囚犯1的觀點,不論對方如何選擇,若選擇不認罪(C),得到的報酬不是2就是0(分析表第一列);然而選擇認罪(D),報酬不是3就是1(第二列)。第二人觀點亦然,可見選擇認罪的報酬恆大於不認罪, 故此賽局的解為兩人皆認罪,各得報酬1。

由上面的小故事能得到什麼呢?(法律問題就算了吧XD)用看起來很有學問的方法說明一次好了, 定義 si = { s1, s2, ..., si, ..., sn }為一策略集合(strategy profile), 紀錄每個參與者的策略,因此這個例子可記作 si = { s1, s2 } 接著定義 s-i 是參與者 i 的策略以外的所有策略集合,最後函數 ui ( si, s-i ) 表示參與者 i 使用策略 si ,對方採用任意相對策略的預期效用函數(expected utility function),不同策略組合對應不同報酬。 以上的賽局符合以下關係:

u ( si, s-i ) ≧ u ( s'i, s-i ), 且 s'i 是任何一個可能策略,對於任一個參與者 i

當任一方無法藉由單方面改變策略得到更佳報酬,即達著名的奈許均衡(Nash equilibrium)解。

以上就是一個簡單純策略(pure strategy)賽局的思考過程,值得一提的是,囚徒困境中,若兩人皆不認罪得到的結果是最好的,但由於不確定對方的行為而落入較差的結果,如何解決是經濟學裡的重要課題。 既然這是個純策略賽局,那有混和策略嗎?想必是有的,而且是演化賽局理論的重要基礎呢!可是,要等下一集了!

撰稿:姚皇宇

留言