2023/09/23

Google逐步蒸餾AI技術,小資料小模型也能打敗LLM的個人看法

  Google發展了一種AI新技術,名為「逐步蒸餾」,以更少的資料訓練專用的小型模型,但效能卻能優於其他方法。

- 發展背景
  - 部署大型語言模型需要大量GPU記憶體。
  - 小型專用模型通常有兩種訓練方法:微調和蒸餾。
  - 蒸餾是將大型模型的知識轉移至小型模型,效能可接近或超越大型模型。

- 逐步蒸餾
  - 是一種簡單機制,使用較少的訓練資料訓練小型模型。
  - 小型模型的效能可能優於少樣本提示語言模型。
  - 主要從大型語言模型擷取自然語言解釋,用於更有效地訓練小型模型。

- 實驗結果
  - 使用逐步蒸餾法的T5模型在多個NLP任務中均超越了其他方法。
  - 2.2億參數的T5模型在e-SNLI資料集上甚至超越了5,400億參數的PaLM模型。
  - 7.7億參數的T5模型在ANLI資料集使用80%資料就超越了PaLM模型。

看來,若可以有小模型,很多人想要落地運用模型就很方便,特別是那些想訓練出專用模型,但訓練資料不方便放到雲端,屬於機密性質的機構。這也可能導致OpenAI 及微軟的AI收入沒有那麼樂觀,反而是落地所需的AI GPU TPU 等硬體需求大增。
另外,語言模型的發展看來是要每幾個月就有大進展,也不用急著去導入,只要先觀察及使用後再來評估對自己企業是否有幫助即可,因為光是一邊評估當紅的技術,就發現又有另一個新技術冒出來!它們只是工具,怎麼運用工具對企業產生效益才是重點。