據蘋果研究人員發現,領先的AI模型在推理方面仍存在顯著困難,這表明通用AI(AGI)的開發道路依然漫長。

蘋果研究人員在6月發表的一篇名為《思考的幻覺》的論文中指出,儘管領先的AI大型語言模型(LLMs)如OpenAI的ChatGPT和Anthropic的Claude最近更新中整合了大型推理模型(LRMs),但它們的基礎能力、擴展特性和局限性「至今仍未被充分理解」。

他們強調,當前的評估體系主要關注既定的數學和程式設計基準,「過度強調最終答案的準確性」。

然而,研究人員表示,這種評估方法並不能真正揭示AI模型的推理能力。

該研究結果與業界預期通用AI僅需幾年即可實現的觀點形成了鮮明對比。

蘋果研究人員測試「思考型」AI模型

研究團隊設計了多種不同的益智遊戲,用於測試Claude Sonnet、OpenAI的o3-mini和o1以及DeepSeek-R1和V3聊天機器人的「思考」和「非思考」變體,評估範圍超越了標準數學基準。

他們發現,「前沿LRMs在超出特定複雜度後會面臨完全的準確性崩潰」,無法有效泛化推理能力,且隨著問題複雜性增加,它們的優勢逐漸消失,這與人們對AGI能力的期望大相逕庭。「我們發現LRMs在精確計算方面存在明顯局限性:它們無法運用明確的演算法,且在不同謎題中的推理過程缺乏一致性。」

最終答案和中間推理軌跡的驗證(上圖),以及顯示非思考模型在低複雜度下更準確的圖表(下圖)。來源: 蘋果機器學習研究

研究人員稱AI聊天機器人存在過度思考現象

研究人員觀察到模型推理不一致且膚淺,同時還發現了過度思考現象,即AI聊天機器人早期能生成正確答案,隨後卻陷入錯誤的推理路徑。

研究團隊得出結論認為,LRMs僅是模仿推理模式,而未能真正內化或泛化這些模式,這與AGI級推理能力的要求相去甚遠。「這些發現挑戰了業界對LRM能力的普遍假設,並表明當前方法可能正面臨泛化推理的根本障礙。」

四種謎題環境的插圖。來源:蘋果

開發AGI的競賽

AGI被視為AI發展的終極目標,指的是機器能夠像人類一樣思考和推理,達到與人類智能相當的狀態。

今年1月,OpenAI執行長Sam Altman表示,該公司比以往任何時候都更接近構建AGI。他當時表示:「我們現在確信我們知道如何構建傳統意義上的AGI。」

去年11月,Anthropic執行長Dario Amodei預測,AGI將在未來一兩年內超越人類能力。他說:「如果你僅從這些能力增長的速率來判斷,確實會讓人認為我們將在2026年或2027年實現這一目標。」

相關推薦:反腐監察機構就LIBRA加密貨幣醜聞為Javier Milei洗清嫌疑