回覆列表
  • 1 # IT人劉俊明

    在我看來,採用工具來分析工具是對大模型理論研究現狀的不滿,或者說現在急需理論研究人員給出大模型的邊界。

    如果能夠從理論上解釋大模型的工作原理,解釋大模型的能力邊界,以及執行效率和引數規模對於湧現的影響等等,那麼大模型才能夠真正安全地應用在生產生活各個領域,否則大模型超強的能力有可能會導致災難性的後果。

    “湧現”是大模型的典型特徵,但是這個特徵並不是新的概念,實際上在物理學領域這是一個常見現象,這是一個機率問題,就像網路科學對湧現的界定那樣,當網路一旦出現了機率問題,那麼就可能出現湧現的特性。

    對於計算機專業的同學來說,Container(容器)的概念並不陌生,我們可以把大模型比喻成一個Container,我們給一個輸入,這個Container就會產生一個輸出,再給一個輸入,還會生成一個新的輸出,如果把這些輸入和輸出之間構建起一個一個連線,就會形成一個網狀結構,而且是機率網狀結構,當然這個並不絕對,這也是大模型不穩定的原因。

    如果能夠把大模型的湧現問題做出網路結構建模,我相信這對於大模型能力邊界的界定會產生巨大的影響,但問題是,現在的大模型已經不想再等了,即使在OpenAI努力控制新版本迭代速度的當下,理論研究依然跟不上大模型自身的發展。當然了,理論研究滯後這是一個普遍現象。

    所以回到這個問題上來,當前透過大模型來解釋大模型這既是一種不滿,同樣也是一種無奈,畢竟大模型這頭猛獸始終是要放出來的。

    當前大模型的特點是做知識壓縮,這也是Transformer的特點,把人類所積累的知識壓縮到大模型當中,然後在使用的時候進行釋放,這個過程的理論基礎和依據是什麼還沒有搞清楚,這也是當前無法準確認知大模型生成能力的重要原因之一。

    壞訊息是當前的大模型已經多方位體現出物理特性了,這就意味著大模型開啟了一個新的物理研究空間,這既讓我們興奮,同時也讓我們恐懼。

    好訊息是當前很多科研工作者正在研究基於壓縮的計算複雜性理論來解釋大模型的訓練和生成過程,以及透過抽象出代數系統來分析大模型核心架構的能力,這為進一步評估大模型的能力邊界奠定了基礎。

    對於當前計算機專業的同學來說,關於大模型的學習和研究一定要給自己營造一個比較好的交流和實踐場景,這是提升學習效率,儘快找到科研著力點,同時讓自己少走彎路的有效方式。

    目前我聯合多所大陸外大學的導師和網際網路大廠的企業導師,共同搭建了一個技術論壇,在持續開展計算機、大資料、人工智慧相關的科研活動,感興趣的同學可以聯絡我申請參與,相信一定會有所收穫。

  • 中秋節和大豐收的關聯?
  • 吳三桂“衝冠一怒為紅顏”的故事廣為人知,陳圓圓的生平究竟是怎樣的?