語言湧現作為語言學的一個分支,主要研究語言交流的動態性。在對語言動態進行建模時,語言湧現帶來更高效的溝通,但是卻無法應對短期的語境。而語用學作為語言學的另一個分支,彌補了語言湧現這一缺陷。將二者的計算模型結合起來,語用推理模型融合進湧現的語言系統,是否可以帶來更流暢、精確和簡潔的表達?本期AI TIME PhD直播間,我們邀請到了清華大學交叉資訊研究院博士生坑易澎分享他的觀點。
坑易澎,現為清華大學交叉資訊研究院博士生,導師是Gerard de Melo教授。主要研究方向是自然語言處理。
一、背景
1.1語用推理
當人們在溝通的時候,表達的意思是基於語境的。如果聽話人脫離語境來理解對話,那麼就很有可能誤解說話人的意思。語用推理(pragmatic reasoning)就是表述這種現象的語言學術語。更準確的說,語用推理這個詞語就是來闡述語言的含義不僅和字面的語義或者語法有關,也和語境有關,另外對話雙方相互揣摩的過程也會影響語言含義。
舉個例子,如果要描述圖1中間的物體使用“blue”這個詞還是“circle”這個詞更合適?在此語境下,對於聽話的一方來說,circle比blue更能明確指代中間物體,說話的一方揣摩到了這一點,所以也會使用circle這個詞,儘管blue也是這個物體的重要特徵。
圖1 語用推理例子
1.2 語言湧現
語言湧現(emerging language)是另外一個語言學中的概念。語言湧現顧名思義就是表示人類語言系統的發展。遠古時代可能是沒有語言或者是有比較低階的語言,透過人們在互相合作過程中不斷交流,逐漸演化出如今使用的語言系統。
Lazaridou等人在2018年試圖用神經網路構建agent來模擬語言湧現的過程。圖2描述了一個聽話人和一個說話人透過語言來交流兩個物體資訊這樣一個場景。具體任務就是說話人描述一個物體,然後將描述的資訊傳送給聽話人,聽話人試圖去了解說話人想要描述哪個物體。
圖2 語言湧現的神經網路模擬
具體的實現就是每個agent都有一個卷積網路來提取物體的特徵,然後透過LSTM或者一些其他的編碼和解碼的網路來形成語言。在訓練時,如果聽話人正確地理解了說話人描述的物體,那麼雙方都會得到正反饋,反之則都得到負反饋。以此在兩個agent中發展出一套獨有的語言系統。
圖3 語言湧現神經網路演化出的語言
最終發展出了圖3所示的語言。比如okccc這個詞就在描述幾乎所有的黃色和白色的物體,而dkccc就是在描述紅色和粉色的物體等等。
1.3 互補:語用推理幫助語言湧現
語用推理和語言湧現的共同之處就是說它們都是多個智慧體之間互相合作來達到一個有效正確的溝通。不同之處是語用推理主要強調在短期內針對單一具體的對話例項進行推理,而語言湧現則是透過長期大量的對話例項逐漸訓練出來的。對應到多體強化學習(MARL)當中,語用推理就相當於stage game,語言湧現相當於stochastic games。
圖4 語言學與多體強化學習的對應
這種長期的語言湧現能夠給agent帶來符合進化的語言習慣,但是卻有時無法在理解在特定語境中的語言。而語用推理就能使得對話依賴於語境,那麼把短期的語用推理放到長期的語言湧現框架當中,針對每一個具體的對話例項進行最佳化,是否能帶來效果呢?
二、語用模型
2.1 基礎語用模型
在Lazaridou等人的基礎上,在基本的框架下對每一個具體的例項調整策略,以達到一個更加成功的溝通。同時為了避免語義漂移(language drift),需要說話人和聽話人的語言策略差距不能太大。
圖5 基本的語用模型
2.2 單側語用模型
類似於Andreas和Klein2016年的工作,講者首先提出了一個比較簡單的SampeL模型。在SampleL模型中,聽話人根據自己的先驗知識來判斷說話人給他的資訊是哪一個物體。說話人則需要改變自己的策略來讓聽話人做出正確的決定,但同時不能放棄自己的語言習慣。
圖6 單側語用模型
2.3 雙側語用模型
但是SampleL模型中只有說話人在調整自己的策略,但現實生活中,說話人和聽話人都會調整自己的語言來達到更好的溝通。最後得到一個均衡的策略,雙方都認可的策略,然後達到正確溝通的目的。
Rational Speech Act(RSA)模型透過貝葉斯條件機率進行策略的迭代。說話人在考慮自己的先驗機率的情況下,將聽話人的策略當作不變的,以此計算出自己這一輪迭代的策略。聽話人也是如此,但是聽話人沒有考慮自己的先驗機率。
圖7 雙側語用模型
另一個相似的模型叫做Iterated Best Response(IBR)和RSA模型基本都是一樣的,不同在於每輪迭代當中,雙方都是選擇最優策略,然後把次優的其他的策略置0。
2.4 基於博弈論的語用模型
講者提出了一個基於博弈論的模型。這樣做的理由就是,既然雙方想要達到一個關於怎樣溝通的共識,那麼為何不就把說話人和聽話人的策略顯式地定義出來,然後找到其中的納什均衡作為解。說話人的策略就是如何把一個物體對映到的語言訊息中,說話者的策略就是每個語言訊息應該對應哪個物體。其中的payoff就在於這兩個策略是否能帶來成功的溝通,並且是否符合之前的語言習慣。
圖8 基於博弈論的語用模型
有了payoff就能建立payoff table並找到其中的納什均衡。最終如果有單一的納什均衡或者最優的解,那麼這個模型稱之為ameTable(GT)。但如果出現了有多個均衡並且無法挑出最優的策略,如何找到最後的解?當一個語言訊息在所有的納什均衡當中都對應的同樣的物體,那麼聽話人和說話人就在這個物體上達成默契了。這個模型稱之GameTable-sequential簡稱為GTS。
三、實驗結果
語用模型都是在最初提到的語言湧現模型的基礎上改進的 。因為語言湧現模型得出的語言只能分辨顏色,所以為了增加難度,從之前的資料集中挑選出那些相同或顏色相近的物體作為備選物體形成新的資料集來測試語用模型。實驗結果如表1所示,其中Acc表示準確性,SP表示湧現出的語言是否符合語言習慣。
表1 不同語用模型的實驗結果
可以看出,所有的語用模型在準確度上都比基本的語言湧現模型高。雙側模型比單側模型的準確的有明顯提高,但是語言習慣的符合程度有所下降。其中GameTable-s模型可以帶來最高的準確性,但是代價就是對先驗語言習慣符合程度的下降。
圖9 語用模型湧現出的語言
從圖9中能看出語言模型讓原本比較粗略地湧現出來語言進行一個細化。比如圖9左邊的三幅圖,原來okccc就描述了所有白色或黃色的物體,但是使用了語用模型之後白色的物體很多就被表達成了okdcc,根據物體的顏色細化了語言詞彙。相同情況也發生在其他顏色或者位置上面。
雖然準確率很高,但是由於模型在訓練的時候雙方都是知道對方的語言習慣進行推理,那麼這種準確率的提高不就是理所當然的?的確這模型並不十分符合現實。為了讓模型更接近現實,雙方在訓練的時候都對對方建模,把這種虛擬的模型作為自己語言推理的基礎。測試改進後的模型得到以下結果。
表2 改進後與改進前模型訓練結果準確率
可以看出改進後模型的準確率都是有所下降的,但是準確率依然比語言湧現模型或者是單側語用模型高。
另一個問題是為什麼這些agent必須要遵守一些事先定好的語用規則?解釋是RSA還是IBR或者Game Theory都是一種很自然的規則,而且也是在心理學實驗中被證實存在的現象。並且在有些情況下,這種語用模型本來就是可以被設定好的,比如在星際爭霸二當中,這些 agent想要互相配合去打敗對方,他們可以互相溝通,把自己的local Information發給對方,來幫助彼此做出一些決策。
圖10 星際爭霸二的多體模型
對於agent之間的溝通系統,其實有很簡單的語用最佳化策略,就是每一步agent傳送資訊的時候,只需要把和上一步的不同之處發過去就好了。那麼這本質上就是一種語用規則,這裡的語境就是上一步的訊息,在這種規則下,那麼agent就可以更簡潔地進行溝通。
四、總結
Reference:
Andreas, J. and Klein, D. (2016). Reasoning about pragmatics with neural listeners and speakers.
Lazaridou, A., Hermann, K. M., Tuyls, K., and Clark, S. (2018). Emergence of linguistic communication from referential games with symbolic and pixel input.
Kang, Y., Wang, T., & Melo, G. de. (2020). Incorporating Pragmatic Reasoning Communication into Emergent Language.