回覆列表
-
1 # 使用者364651256228734
-
2 # pzyyo24296
假設有n個局中人參與博弈,如果某情況下無一參與者可以獨自行動而增加收益(即為了自身利益的最大化,沒有任何單獨的一方願意改變其策略的[1]),則此策略組合被稱為納什均衡 納什均衡。所有局中人策略構成一個策略組合(Strategy Profile)。納什均衡,從實質上說,是一種非合作博弈狀態。 納什均衡達成時,並不意味著博弈雙方都處於不動的狀態,在順序博弈中這個均衡是在博弈者連續的動作與反應中達成的。納什均衡也不意味著博弈雙方達到了一個整體的最優狀態,以下的囚徒困境就是一個例子。納什均衡的定義:在博弈G=﹛S1,…,Sn:u1,…,un﹜中,如果由各個博弈方的各一個策略組成的某個策論組合(s1*,…,sn*)中,任一博弈方i的策論si*,都是對其餘博弈方策略的組合(s1*,…s*i-1,s*i+1,…,sn*)的最佳對策,也即ui(s1*,…s*i-1,si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1,sij*,s*i+1,…,sn*)對任意sij∈Si都成立,則稱(s1*,…,sn*)為G的一個納什均衡。
納什均衡是指這樣一種均衡:在這一均衡中,每個博弈參與人都確信,在給定其他參與人戰略決定的情況下,他選擇了最優戰略以迴應對手的戰略。”也就是說,所有人的戰略都是最優的。而講解“納什均衡”的最著名的案例就是“囚徒的困境”。 a,b兩個囚徒,a坦白b抵賴,b判10年,a判1年.若兩人均坦白則各判5年,若兩人均抵賴則都判2年。a,b面臨抉擇。 顯然最好的策略是雙方都抵賴,結果是大家都只被判2年。但是由於兩人處於隔離的情況下無法串供,按照亞當·斯密的理論,每一個人都是一個“理性的經濟人”,都會從利己的目的出發進行選擇。這兩個人都會有這樣一個盤算過程:假如他招了,我不招,得坐10年監獄,招了才5年,所以招了划算;假如我招了,他也招,得坐5年,他要是不招,我就只坐1年,而他會坐10年牢,也是招了划算。綜合以上幾種情況考慮,不管他招不招,對我而言都是招了划算。兩個人都會動這樣的腦筋,最終,兩個人都選擇了招,結果都被判5年刑期。 原本對雙方都有利的策略(抵賴)和結局 (被判1年刑)就不會出現。這就是著名的“囚徒困境”。它實際上反映了一個很深刻的問題,這就是個人理性與集體理性的矛盾。對於多人參與、非零和的博弈問題,在納什之前,無人知道如何求解,或者說怎樣找到類似於最小最大解那樣的“平衡” 。而找不到解,下面的研究當然無法進行,更談不上指導實踐了。納什對博弈論的巨大貢獻,正在於他天才性地提出了“納什均衡” 的基本概念,為更加普遍廣泛的博弈問題找到了解。納什均衡的基本思想是,在這個解集中所有參與者的策略都是對其他參與者所用策略的最佳對策,沒有人能夠透過單單改變自己的策略提高收益。 在上面的例子中,我們注意到了一個並非最優的結果,就是兩人都選擇坦白的策略以及因此被判5年的結果,這個結果被稱為“納什均衡”,也叫非合作均衡。博奕論中最基本的概念就是“納什均衡”,一談到博奕論,人們說的最多的最著名的也是“納什均衡”。納什均衡指的是這樣一種戰略組合,這種戰略組合由所有參與人的最優戰略組成,也就是說,給定別人戰略的情況下,沒有任何單個參與人有積極性選擇其他戰略使自己獲得更大利益,從而沒有任何人有積極性打破這種均衡。 當然,“納什均衡”雖然是由單個人的最優戰略組成,但並不意味著是一個總體最優的結果。如上述,在個人理性與集體理性的衝突的情況下,各人追求利己行為而導致的最終結局是一個“納什均衡”,也是對所有人都不利的結局。 從這個意義上說,“納什均衡”提出的悖論實際上動搖了西方經濟學的基石。同時,它也提示我們:合作是有利的“利己策略”。實際上,如果上述兩個囚徒能夠串供進行合作,那麼他們一定會選擇都抵賴從而只因偷盜罪被判1年,當然,正是考慮到了這一點,所以警察才對他們隔離審查從而獲知了事實真相,對囚徒而言最有利的合作結果才沒有出現。“納什均衡”描述的就是一種非合作博奕均衡,在現實中非合作的情況要比合作情況普遍。所以“納什均衡”是對馮·諾依曼和摩根斯特恩的合作博奕理論的重大發展,甚至可以說是一場革命。 今天,納什均衡被廣泛應用於各個領域的研究,尤其在進行制度分析寸,我們可應用它得出一個很重要結論:一種制度(體制)安排要發生效力,必須是一種納什均衡。否則,這種制度安排便不能成立。