-
1 # Shuanyun123
-
2 # 小寶一個人睡
極小極大原理和納什均衡
在某種情況下,博弈雙方的策略選擇往是有跡可循的,並形成某種“定式”即均衡。均衡不一定是博弈的最優結果,而只是最“穩定”的結果,或者說是最可能出現的結果。
極小極大原理
諾伊曼認為:在一個二人零和遊戲中,總會找到一種有一個明確而合乎理性的方法以獲得個人的最佳收益,而這個“明確而合乎理性的方法”就是“極小極大原理”。諾伊曼的這一發現可能是博弈論最重要的核心內容。
什麼是“極小極大原理”呢?就是用通俗一點兒的話說就是,你想贏得競爭,可能有幾種選擇,你當然願意選擇受益最大的一種;但是你的選擇不能不考慮對方的對策,因為他跟你一樣,也是這樣想的,所以你就必須把對方的選擇也考慮清楚。比如你有兩種選擇,對方也有兩種對策,如果你的一種選擇無論在對手作出何種對策時效果都比另外一個好,這通常被稱為“優勢策略”;另一方面,對手也明白你的優勢策略所在,知道你會照此實行,所以也會在自己的兩個對策中選擇效果最好的一種—— —這也是他的優勢策略。顯然,如果雙方都選擇優勢策略。那麼這個博弈就是有跡可循、可以預測的,也就是所謂“理性的解”,並形成某種“定式”,即均衡。
比如在“囚徒困境”中,招供就是“理性的解”,因為就單方面來說,無論對方招不招供,你招供都是最佳策略,於是結果就是雙方招供,這個結果其實並不好,但最可能出現,這就是“均衡”。
為什麼會出現這個不好的結果呢?因為對任何一方來說,這個結果還不是最壞的—— —總比自己獨自受過要好。著名作家卡爾維諾一語道破:“有時候,你能指望的最佳結果就是避免最壞情況。”
還可以用“分蛋糕”的故事說明這個均衡:給兩個小孩分一塊蛋糕,誰都希望自己分到大的一塊,如何解決這個矛盾呢?
當然,大人可以作為仲裁者,幫助他們分,但是就算你切得再仔細,也不可能做到完全公平;而且,就算你做到完全的公平,恐怕還會有人覺得吃了虧。那麼,有沒有更好的辦法呢?
當然有,這就是你制定一個規則—— —由一個人來分,而由另一個人先選擇要哪一塊。顯然前者知道,後者的優勢策略就是選擇較大的那一塊,所以儘可能分得公平就是他的優勢策略,只有這樣才可以把自己的損失降到最小。
博弈的均衡—— —納什均衡
我們已經找到了一個策略組合,其中,各方的行動就是針對對方行動而確定的最佳對策。一旦知道對方在做什麼,就沒人願意改變自己的做法。博弈論學者把這麼一個結果稱為“均衡”。這個概念是由普林斯頓大學數學家約翰·納什提出的,因此被稱為“納什均衡”。
納什均衡是博弈分析中的重要概念。1950年,還是一名研究生的納什寫了一篇論文,題為《N人博弈的均衡問題》,該文只有短短一頁紙,可就這短短一頁紙成了博弈論的經典文獻。在這篇論文中,納什給出了博弈均衡的定義,即納什均衡。
那麼,什麼是納什均衡呢?簡單說來就是,在一個策略組合中,所有參與者面臨這樣的一種情況:當其他人改變策略時,他此時的策略是最好的。也就是說,此時如果他改變策略,結果會比現在差。在納什均衡點上,每一個理性的參與者都不會有單獨改變策略的衝動。
在“囚徒困境”中存在唯一的納什均衡點,即兩個囚犯均選擇“招認”,這是唯一穩定的結果。
有些博弈的納什均衡點不止一個,如下述“夫妻博弈”(或稱性別之戰):丈夫和妻子商量晚上的活動,丈夫喜歡看拳擊,而妻子喜歡欣賞歌劇,但兩人都希望在一起度過夜晚。
在這個“夫妻博弈”中有兩個納什均衡點:一同去聽歌劇,或一起去看拳擊。在有兩個或兩個以上納什均衡點的博弈中,其最後結果難以預測。在“夫妻博弈”中,我們無法知道,最後結果是一同欣賞歌劇還是一起去看拳擊。但不管怎麼說,這個結果總算還溫情脈脈,以後我們還會說起另外一個有兩個均衡點的“膽小鬼博弈”,那就真的是進退兩難了。
納什均衡是博弈論中的重要概念,同時也是經濟學中的重要概念。
諾貝爾經濟學獎獲得者薩繆爾森有一句幽默的話:“你可以將一隻鸚鵡訓練成經濟學家,因為它所需要學習的只有兩個詞:‘供給’與‘需求’。”博弈論專家坎多瑞引申說:“要成為現代經濟學家,這隻鸚鵡必須再多學一個詞,這個詞就是‘納什均衡’。”由此可見納什均衡在現代經濟學中的重要性。納什均衡不僅對經濟學意義重大,對其他社會科學意義同樣重大。
納什均衡可以成為我們指導同時行動博弈的最後一個法則:【走完尋找優勢策略和剔除劣勢策略的捷徑之後,下一步就是尋找這個博弈的均衡。】
我們還要解釋一下這個法則,為什麼一個博弈的參與者非得達到這麼一個結局呢?我們可以說出好幾個理由。
首先,存在避免迴圈推理的必要,因為迴圈推理幫不上忙。均衡在沒完沒了的“我知道他知道我知道……”的迴圈裡是穩定不變的,這使參與者對其他人的行動的估計能保持連貫性。各方正確預計別人的行動,並且確定自己的最佳對策。
均衡策略的第二個好處出現在零和博弈中。在這種博弈裡,參與者的利益嚴格相悖。你的對手不能透過引誘你採取一個均衡策略而得到任何好處,你已經充分考慮到他們對你正在做的事情會有什麼樣的最佳對策。
可能存在一個對均衡概念的誤解,當我們說博弈的結果是均衡時,並不一定是對參與者最有利的結果,更不意味著對整個社會作為一個整體而言是最有利的結果。有利或者不利的評價永遠屬於另外一個問題,答案視各個案例的具體情況而各有不同。
在經濟學中,均衡意即相關量處於穩定值。在供求關係中,市場上的某一種商品如果在某一價格下,想以此價格買此商品的人均能買到,而想賣的人均能將該商品賣出去,此時我們就說,該商品的供求達到了均衡。此時的價格可稱之為均衡價格,產量稱之為均衡產量。均衡分析是經濟學中的重要分析。
那麼什麼是博弈論的均衡呢?所謂博弈均衡,它是一種穩定的博弈結果。均衡是博弈的一種結果,但不是說博弈的結果都能成為均衡。博弈的均衡是穩定的,因而是可以預測的。
納什均衡是一種最常見的均衡。它的含義是,【在對方策略確定的情況下,每個參與者的策略都是最好的,此時沒有人願意先改變自己的策略。】
在上面的“買-賣”的博弈中,(賣出,買進)是一個納什均衡,這個博弈可以解釋在現實中,討價還價後買賣能做成的原因,因為這對雙方來說都是最優選擇。同時在“買—賣”博弈中,其均衡對雙方來說是結局最優的。
“納什均衡”:合作是有利的“利己策略”。它必須符合以下黃金律:按照你願意別人對你的方式來對別人,但只有他們也按同樣方式行事才行。也就是華人說的“己所不欲勿施於人”。但前提是人所不欲勿施於我。
1994年諾貝爾經濟學獎的獲得者美國普林斯頓大學的約翰·納什。納什獲得諾貝爾經濟學獎的原因是他在博奕淪領域的貢獻,他提出了“納什均衡”理論、關於博奕論,流傳最廣的是一個叫做“囚徒困境”的故事:
話說有一天,一個富翁在家中被殺,財物被盜;警方在此案的偵破過程中,抓到兩個犯罪嫌疑人張三和李四,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱他們只是順手牽羊偷了點兒東西。於是警方將兩人隔離,分別關在不同的房間進行審訊。警察分別對張三和李四說,“由於你們的偷盜罪已有確鑿的證據,所以可以判你們1年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我只判你3個月的監禁,但你的同夥要被判10年刑。如果你拒不坦白,而被同夥檢舉,那麼你就將被判10年刑,他只判3個月的監禁。但是,如果你們兩人都坦白交代,那麼,你們都要被判5年刑。”
張三和李四怎麼辦呢?他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結果是大家都只被判一年。但是由於兩人處於隔離的情況下無法串供,按照亞當·斯密的理論,每一個人都是一個“理性的經濟人”,都會從利己的目的出發進行選擇。這兩個人都會有這樣一個盤算過程:假如他招了,我不招,得坐10年監獄,招了才5年,所以招了划算;假如我招了,他也招,得坐5年,他要是不招,我就只坐3個月,而他會坐10年牢,也是招了划算。綜合以上幾種情況考慮,不管他招不招,對我而言都是招了划算。兩個人都會動這樣的腦筋,最終,兩個人都選擇了招?結果都被判5年刑期。原本對雙方都有利的策略(抵賴)和結局 (被判1年刑)就不會出現。這就是著名的“囚徒困境”。它實際上反映了一個很深刻的問題,這就是個人理性與集體理性的矛盾。
實際上,如果兩個都抵賴,各判刑1年,顯然比都判5年好,但實際上做不到,因為它不滿足個人理性要求。作為一個理性的人,張三和李四都會想,如果我抵賴而對方坦白的話,自己就可能判刑10年,理性的人是不會冒這種險的。但張三和李四都理性選擇的結果,兩人都被判了5年,最優的被判1年的結果並沒有出現。也就是說,對每個人而言都是理性的選擇,但對於整個集體來說卻是不理性的。
這與傳統經濟學所言的結論相悖。傳統經濟學認為市場經濟存在“看不見的手”,它調節的結果是每個人的理性選擇最終會造成對整個集體的最大利益。實際上,就像囚徒困境一樣,這隻看不見的手在參與選擇的人數只有少數幾個的時候會失去作用,因為這個時候,人們決策的過程會考慮其他參與者的想法,就像賭博和下棋的時候一樣,這就和買家和賣家數量都巨大時的完全競爭不完全一樣,需要新的一套思路進行研究。
在上面的例子中,我們注意到了一個並非最優的結果,就是兩人都選擇坦白的策略以及因此被判5年的結果,這個結果被稱為“納什均衡”,也叫非合作均衡。博奕論中最基本的概念就是“納什均衡”,一談到博奕論,人們說的最多的最著名的也是“納什均衡”。納什均衡指的是這樣一種戰略組合,這種戰略組合由所有參與人的最優戰略組成,也就是說,給定別人戰略的情況下,沒有任何單個參與人有積極性選擇其他戰略使自己獲得更大利益,從而沒有任何人有積極性打破這種均衡。
當然,“納什均衡”雖然是由單個人的最優戰略組成,但並不意味著是一個總體最優的結果。如上述,在個人理性與集體理性的衝突的情況下,各人追求利己行為而導致的最終結局是一個“納什均衡”,也是對所有人都不利的結局。
從這個意義上說,“納什均衡”提出的悖論實際上動搖了西方經濟學的基石。同時,它也提示我們:合作是有利的“利己策略”。實際上,如果上述兩個囚徒能夠串供進行合作,那麼他們一定會選擇都抵賴從而只因偷盜罪被判1年,當然,正是考慮到了這一點,所以警察才對他們隔離審查從而獲知了事實真相,對囚徒而言最有利的合作結果才沒有出現。“納什均衡”描述的就是一種非合作博奕均衡,在現實中非合作的情況要比合作情況普遍。所以“納什均衡”是對馮·諾依曼和摩根斯特恩的合作博奕理論的重大發展,甚至可以說是一場革命。
今天,納什均衡被廣泛應用於各個領域的研究,尤其在進行制度分析寸,我們可應用它得出一個很重要結論:一種制度(體制)安排要發生效力,必須是一種納什均衡。否則,這種制度安排便不能成立。
回覆列表
最大原理:最追求最好結局;
最小原理:就是最壞結局。
均衡:無法達到最好時,也要避免最壞的結局。
當我面臨兩難的抉擇時,我會從多個策略中選擇最有利於自身的策略做出下一步行動,對手也會做出最不利我的策略來對付我。如果對手的每一步策都都比我高明,結局可能是最壞的!戰勝對手無望時,就要設法制止最壞結局的發生,即均衡。
下棋時當無法戰戰勝對手時,就要放手一搏,爭取平局;經商時,無法賺錢,時就應設法保本,避免虧本;囚徒無法逃脫牢獄的命運,就要沒法保命,設法 縮短刑期,即 就是最好的均衡。