首頁>科技>

古諺道:“熟讀唐詩三百首,不會作詩也會吟。” 這句話放在目前的人工智慧語言模型中也非常適用。

此前,OpenAI 的研究人員開發出 “GPT-3”,這是一個由 1750 億個引數組成的 AI 語言模型,堪稱有史以來訓練過的最大的語言模型,可以進行原始類比、生成配方、甚至完成基本程式碼編寫。

如今,這一記錄被打破了。近日,谷歌研究人員開發出一個新的語言模型,它包含了超過 1.6 萬億個引數,這是迄今為止最大規模的人工智慧語言模型,比之前谷歌開發的語言模型 T5-XXL 的規模大了 4 倍。

引數是機器學習演算法的關鍵所在,它們是從歷史訓練資料中學習到的模型的一部分。一般而言,在語言領域中引數的數量和複雜度之間的相關性非常好。這一點類似於 GPU 中電晶體的數量,在同樣的製程工藝下,電晶體越多其算力便越強,而語言模型包含的引數愈多就愈接近人類自然語言。

正如研究人員在一篇論文中指出的那樣,大規模的訓練是通向強大模型的有效途徑,在大資料集和引數計數的支援下,簡單的體系結構遠遠超過了更復雜的演算法。但是,有效的大規模培訓在計算上非常密集。這就是為什麼研究人員熱衷於他們所說的 “開關變壓器”,這是一種 “稀疏啟用” 技術,它只使用模型權重的一個子集或者在模型中轉換輸入資料的引數。

“開關變壓器” 是早在 90 年代初首次提出的一種人工智慧模型範例,大體意思是將多個專家或專門處理不同任務的模型放在一個更大的模型中,並有一個 “門控網路” 來選擇為任何給定資料諮詢哪些專家。

在一項實驗中,研究人員使用 32 個 TPU 核心對幾個不同的 “開關變壓器” 模型進行了預訓練,這些 TPU 核心位於一個從 Reddit、Wikipedia 和其他網路資源中搜集的 750GB 大小的文字資料語料庫中,任務則是讓這些模型預測段落中 15% 的單詞被遮住的缺失單詞,以及其他挑戰,比如檢索文字來回答一系列越來越難的問題。

研究人員稱,包含了 1.6 萬億引數和 2048 名專家的模型 Switch-C 顯示 “完全沒有訓練不穩定性”。然而,在桑福德問答資料集的基準測試中,Switch-C 的得分居然比僅包含 3950 億個引數和 64 名專家的模型 Switch-XXL 還要低一點,對此,研究人員認為是因為微調質量、計算要求和引數數量之間的不透明關係所致。

在這種情況下,“開關變壓器” 導致了一些下游任務的收益。例如,研究人員稱在使用相同數量的計算資源的情況下,它可以使訓練前的加速速度提高 7 倍以上。他們還證明 “稀疏啟用” 技術可以用來建立更小、更密集的模型,這些模型可以對任務進行微調,其質量增益為大型模型的 30%。

對此他們表示:雖然這項工作主要集中在超大模型上,但我們也發現只有兩名專家的模型可以提高效能,同時很容易適應通用 GPU 或 TPU 的記憶體限制。另外,透過將稀疏模型提取為稠密模型,可以實現 10 到 100 倍的壓縮率,同時獲得專家模型約 30% 的質量增益。

在另一個測試中,“開關變壓器” 模型被訓練在 100 多種不同語言之間進行翻譯,研究人員觀察到 101 種語言的 “普遍改善”,91% 的語言受益於比基線模型快 4 倍以上的速度。未來,研究人員還計劃將 “開關變壓器” 應用於新的領域,比如影象和文字。他們認為,模型稀疏性可以賦予優勢,在一系列不同的媒體以及多模態模型。

美中不足的是,研究人員的工作沒有考慮到這些語言模型在現實世界中的影響,比如模型通常會放大一些公開資料中的偏見。對此,OpenAI 公司指出,這可能導致在女性代詞附近放置 “淘氣”;而在 “恐怖主義” 等詞附近放置 “伊斯蘭” 等。根據米德爾伯裡國際研究所的說法,這種偏見可能被惡意行為者利用,透過散佈錯誤資訊、造謠和謊言來煽動不和。

綜上所述,儘管谷歌訓練的 1.6 萬億引數的人工智慧語言模型還沒辦法做到真正意義上的人工智慧,存在一些不足之處需要完善和最佳化,但隨著在摩爾定律下電子裝置算力的不斷提升,近些年 AI 語言模型引數量級呈指數倍發展,相信在不久的將來,或許真的會出現一個無限接近熟讀人類歷史所有文明記錄的超級模型,能夠和人類完全實現自然語言交流,不妨讓我們好好期待一下吧!

12
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 《簡單科普"晶片"知識一》