2023/10/03

LM Studio 在MacBook Air M2 上執行 LLama 大語言模型

  一般人在現階段想要不在雲端服務下使用大語言AI模型,第一個想到的就是買台PC或筆電,上面裝有nVidia 顯示卡,記憶體還不能太小。現在可以在MacBook Air M2上執行,且不用裝一堆Python 相關套件。
    你只要下載 LM Studio。它有 Windows 和Mac 版本。為了測試我的MacBook Air M2 (16GB RAM) 上是否可以善用GPU,當然是載MacOS 版。 官網: https://lmstudio.ai
下載安裝成功後,啟動畫面:

一開始沒有 AI model ,請先輸入 taiwan llama 來找出台大博士生有特地用中文資料訓練過的,你可以找 13B 的 Taiwan-LLaMa-13b-1.0.Q4_K_M.gguf , 請準備 10 GB 以上硬碟空間,因為光是模型就快 8GB。如果怕跑不動,或跑很慢可以找 7B 這種較小的。
載完就可載入模型,然後開始問它問題,這時你會發現 CPU, GPU 都處於高負載的狀態。在MacBook Air M2 上問問題的 速度還可以接受,比ChatGPT回應再慢一點點。主要是確定可以善用 GPU,也確實跑得動。

但是,問題來了!這只能做簡單的測試及練習。要當Server 運用這個模型是有點力不從心,跑沒幾句對話,就發現筆電底部份發熱了,這台我都用了快十個月了,還沒遇到過。

所以,很認份的再去下載一個7B的 model 。看來13B的模式要用MacBook Pro 64GB 以上的機種來跑。
7B model 跑起來就比較順,可是這model 用中文問,只會用英文回答。看來是載錯了,改用 chinese 7B 關鍵字找到中文相關模型。
執行前,先到右邊去將 Context Length 加大成2倍以上,不然對話沒幾句就出現錯誤了。如下畫面:紅字部份
改動 Context Length 會自動重新載入模型。接下來,就可以好好對話了!



有時還會亂亂答。看來想要落地,還選llama 2 13B的模型比較OK。差的就只是硬體的算力了,不!應該是鈔能力!

才使用 LM Studio 試用 llama 2 7B 模型沒幾天,台灣中研院就釋出以此為基礎的 CKIP-Llama-2-7b-chat model ,這是針對繁體中文再優化,可以參考以下網址:

   https://huggingface.co/ckiplab/CKIP-Llama-2-7b-chat

如果不喜歡 LM Studio 可以建議試試 Text Generation WebUI 。