2024/08/31

ChatGPT - GPT 4o 的 Strawberry 回答字母r出現次數錯誤及比較Claude 和 Gemini

  OpenAI 已經預告第三季可能推出更強大的模型Strawberry。但是最近我在網路上看到有人再討論ChatGPT 對 Strawberry 這個英文字中有幾個 r 有回答錯誤的情況,我個人認為這麼簡單的問題怎麼可能難得倒ChatGPT,自己有訂閱,所以也就來驗證此新聞的真實性。直接對GPT-4o進行,結果真的印證了此說法。
一開始就回答錯,請它檢查也是一樣

提示它在t 和 e 後面,還是答錯,連它自己仔細檢查後回答還是錯


最後,放大招教教它,請它將每一個字母列出來,並且列出次數。這下出它列出來的次數終於對了。它也認錯了。

我想了一下,這個問題可能是因為使用中文表達和使用英文表達會影響結果,所以改用英文來問,且新開一個對話避免被上一個對話影響,結果是使用英文一次就回答正確:


接下來將模型換成 ChatGPT 4o mini ,也是新開一個對話,結果回答 r 出現兩次的問題出現了。


完全一模一樣問句,再切換模型 ChatGPT 4o 和 ChatGPT 4再分別測試一次,都是正確的。我真的是不知道說什麼?

試過 ChatGPT 後,再想到 Claude AI 這家,也用相同問題問一下,結果是正確的。

最後,想到 Google 的 Gemini ,不試一下怎麼行? 結果是錯的,它也回答只有 2 個 r


再用 "請將 Strawberry 這個英文字中每一個字母列出來並計算其出現次數"這種方式問 Gemini ,結果竟然是錯的,錯的離譜。

r 這個次數應該是 3,它回答成 2 , e 次數應該是 1 ,它回答成 3

Claude AI 回答則是完全正確:

這個問題在 ChatGPT o1-preivew 模型已解決,但是 o1-mini 問題仍然在。