回覆列表
-
1 # 茶花女南巷南冥
-
2 # 使用者4513273315216
零和博弈,也稱為零和博弈,是一種博弈論的概念,是一種非合作博弈。 指遊戲中涉及的各方。在嚴格的競爭中,一方的獲利必然意味著另一方的損失。遊戲雙方的得失總和始終為“零”,並且兩方之間沒有合作的可能性。 零和博弈的結果是,一方吃了另一方,一方的收入是另一方的損失,整個社會的利益沒有增加一點。他們自己的幸福是建立在他人的痛苦之上的。兩者的大小完全相同,因此雙方都想盡一切可能實現“損害他人”。
在遊戲設計多玩家對抗的時候,需要平衡各個玩家的引數。採取何種方式更為合理呢?本文將闡述其中一種平衡關係。
零和博弈的意思是:在這個環境中,獲勝的一方和失敗一方的收益或損失是相互抵銷的。只要這結果集中任何一個結果雙防的得失不相等,都不是零和博弈。
雙人的“石頭剪刀布”是一款經典的零和博弈遊戲,每一次石頭剪刀布,都必定只有一個獲勝方,一個失敗方(或平局)。假設獲勝的分值+1,失敗分值-1,平局分值+0。那麼在下表中,每一局遊戲的總的收益全部為0。零和博弈中所有結果都能稱之為:帕累托最優[1]。
圖1.1 石頭剪刀布中游戲結果集
事實上,遊戲設計者在絕大部分情況下並不希望遊戲是零和博弈。遊戲設計者更多希望玩家之間能夠有相互的對抗,並且玩家加入遊戲後,就難以變得比參與之前更好。這樣零和博弈的問題可以採用“非零和博弈”或者引入“極大/極小”來解決。
一種經典的非零和博弈叫“囚徒困境”,“囚徒困境”是1950年美國蘭德公司提出的博弈論模型。兩個共犯被關入監獄,在不能互相溝通情況。如果兩個人都不揭發對方,則由於證據不確定,每個人都坐牢一年;若一人揭發,而另一人保持沉默,則揭發者因為立功而立即獲釋,沉默者因不合作而入獄五年;若互相揭發,則因證據確實,二者都判刑五年。由於囚徒無法信任對方,因此傾向於互相揭發,而不是同守沉默。
我們可以用圖表來表示上述情況,如果立即獲釋,得0分,每人獲刑1年,則-1分;如果獲刑兩年則-2分,如果獲刑五年則-5分。結果如下:
圖1.1 囚徒困境中兩位囚徒抉擇後結果集
這種模式是玩家理性自利的。儘管在遊戲中會看到囚徒會有合作(或許並沒有人鼓勵他們)。如果這兩個歹徒不小心被第二次逮捕,即便他們第一次產生了合作,但第二次會立即背叛對方。(多次遊戲中,在玩家摸索到遊戲對於自己最優的方式後,再次遊戲的時候玩家會毫不猶豫地選擇這樣的方式)。
為了保證遊戲的公平性,只要 最壞>次壞>最好的情況成比例,遊戲就不需要對稱。遊戲需要玩家之間的對抗。
非零和博弈比零和博弈更為複雜,因為有可能同時存在多個玩家輸(或贏),或者所有玩家都輸(或贏)。基本上所有的賭博遊戲都是非零和博弈的,因為在一定數量的“遊戲”發生之後,不會有人比“遊戲”之前的收益更高。
上文描述的,在兩個玩家玩石頭剪刀布的零和博弈遊戲中,每一個玩家會選擇一個能最大化他們回報的混合策略。極小極大原理是現代計算機之父約翰·馮·諾依曼提出的。在零和博弈中,每一個玩家們致力於讓競爭對手得到最小的回報,這並不一定是讓自己獲得最大的成功的選項,因為自己獲得最大成功並不能壓制對手的崛起。
這個定理反過來,是極大極小原理。它廣泛應用於非零和博弈中。玩家會致力於防止最差的結果,極力避免錯誤決定導致遊戲的崩盤。他們傾向於選擇最穩妥最不會帶來失敗的選項進行遊戲。在競爭對手崛起的過程中,玩家會竭盡全力阻撓並讓自己最小的一比收益利用率最大化。
一般來說,上述兩種理論幾乎都是玩家認為最合適的方式來保證自己的發育與成功。在設計遊戲的時候應該按照比例合理設定玩家各類可能性比值,對玩家行為進行預估。迫使玩家主動對於目前的環境做出對自己最優的選擇。
在單擊遊戲中,玩家沒有競爭對手的時候,設計者要對遊戲結果進行足夠多的不可預知的設計從而促使玩家進行在該位置上的利己決策。透過各類關卡與引導幫助玩家自然地選擇。如決定是否對一個高風險的關卡進行挑戰,如果挑戰成功,玩家將會獲得極為可觀的收益;當玩家失敗了,這一次的挑戰將需要玩家一段時間恢復才能重新挑戰。
遊戲設計中,需要儘可能引導玩家對自己的處境進行評估,同時給予玩家利用少量資源的消耗獲得可觀收益的機會,最後要把玩家置於一個稍微不利的環境中促使玩家努力參與其中。
註釋:
帕累托最優:帕累托最優是指資源分配的一種理想狀態,假定固有的人數可分配的資源,從一種分配狀態到另一種狀態的變化中,在沒有使任何人境況惡化的前提下,也不可能再使某些人的處境好轉。換句話說,就是不可能改變某一些人的境況而導致另一些人的境況受損。https://pic1.zhimg.com/50/f63f241af3fdaa662b885687f50029f4_hd.jpg