回覆列表
  • 1 # 睿智的高冷H

    目前大陸的一些企業都在做類似CHAT GPT的中文大語言模型,比如百度的文心一言,華為的盤古, 還有阿里的通義千問等等。

  • 2 # 雨季講述者

    你好很高興為你回答,目前還沒有官方的中文版 ChatGPT,但是有一些開發者在嘗試使用開源的 Alpaca-LoRA(開源的聊天機器人專案)來訓練自己的中文對話模型。Alpaca-LoRA 是一個基於 LLaMA(開源大模型) 的 70 億引數的模型,使用了 LoRA(大語言模型的低階適應),這是微軟的研究人員為了解決大語言模型微調而開發的一項技術。可以使用此技術來降低微調的算力需求。

    LoRA (大語言模型的低階適應)的思想是在原始 PLM (預訓練語言模型)旁邊增加一個旁路,做一個降維再升維的操作,來模擬所謂的 intrinsic rank①。

    ①intrinsic rank 是一種衡量矩陣的內在維度的概念,是指構成矩陣的最少的列向量的個數。在 PLM 的微調中,intrinsic rank 是指原始 PLM(預訓練語言模型) 的引數矩陣中包含的有效資訊的維度,通常遠小於矩陣的實際維度。使用 LoRA 技術,可以透過降維和升維的操作,來近似原始 PLM 的 intrinsic rank,從而減少微調的引數量和計算量。

    訓練的時候固定 PLM(預訓練語言模型) 的引數,只訓練降維矩陣 A 與升維矩陣 B。Alpaca-LoRA (開源的聊天機器人專案)使用了 Hugging Face (自然語言處理公司)的 PEFT ②和 bitsandbytes ③來實現高效的微調。有人使用 RTX 4090 顯示卡,只用 5 個小時就訓練了一個和 Alpaca (聊天機器人)水平相當的模型。只要持續訓練,相信不久的將來就會出現中國版的chatGPT。

    ②PEFT 是實現的引數高效微調的方法。PEFT 可以在低資源硬體上對十億規模的預訓練語言模型進行微調,只需要訓練少量的額外引數,從而大大降低了計算和儲存成本

    ③bitsandbytes 是一個用於 PyTorch (源的Python機器學習庫)的 8 位 CUDA 函式的庫,可以提高參數高效微調的效率和穩定性。bitsandbytes 提供了 8 位最佳化器、矩陣乘法、量化和快速分位數估計等功能。

  • 中秋節和大豐收的關聯?
  • 矽谷銀行、瑞信等接連破產,你對誠信怎麼看?