- 發展背景
- 部署大型語言模型需要大量GPU記憶體。
- 小型專用模型通常有兩種訓練方法:微調和蒸餾。
- 蒸餾是將大型模型的知識轉移至小型模型,效能可接近或超越大型模型。
- 逐步蒸餾
- 是一種簡單機制,使用較少的訓練資料訓練小型模型。
- 小型模型的效能可能優於少樣本提示語言模型。
- 主要從大型語言模型擷取自然語言解釋,用於更有效地訓練小型模型。
- 實驗結果
- 使用逐步蒸餾法的T5模型在多個NLP任務中均超越了其他方法。
- 2.2億參數的T5模型在e-SNLI資料集上甚至超越了5,400億參數的PaLM模型。
- 7.7億參數的T5模型在ANLI資料集使用80%資料就超越了PaLM模型。
另外,語言模型的發展看來是要每幾個月就有大進展,也不用急著去導入,只要先觀察及使用後再來評估對自己企業是否有幫助即可,因為光是一邊評估當紅的技術,就發現又有另一個新技術冒出來!它們只是工具,怎麼運用工具對企業產生效益才是重點。