據蘋果研究人員發現,領先的AI模型在推理方面仍存在顯著困難,這表明通用AI(AGI)的開發道路依然漫長。
蘋果研究人員在6月發表的一篇名為《思考的幻覺》的論文中指出,儘管領先的AI大型語言模型(LLMs)如OpenAI的ChatGPT和Anthropic的Claude最近更新中整合了大型推理模型(LRMs),但它們的基礎能力、擴展特性和局限性「至今仍未被充分理解」。
他們強調,當前的評估體系主要關注既定的數學和程式設計基準,「過度強調最終答案的準確性」。
然而,研究人員表示,這種評估方法並不能真正揭示AI模型的推理能力。
該研究結果與業界預期通用AI僅需幾年即可實現的觀點形成了鮮明對比。
蘋果研究人員測試「思考型」AI模型
研究團隊設計了多種不同的益智遊戲,用於測試Claude Sonnet、OpenAI的o3-mini和o1以及DeepSeek-R1和V3聊天機器人的「思考」和「非思考」變體,評估範圍超越了標準數學基準。
他們發現,「前沿LRMs在超出特定複雜度後會面臨完全的準確性崩潰」,無法有效泛化推理能力,且隨著問題複雜性增加,它們的優勢逐漸消失,這與人們對AGI能力的期望大相逕庭。「我們發現LRMs在精確計算方面存在明顯局限性:它們無法運用明確的演算法,且在不同謎題中的推理過程缺乏一致性。」
研究人員稱AI聊天機器人存在過度思考現象
研究人員觀察到模型推理不一致且膚淺,同時還發現了過度思考現象,即AI聊天機器人早期能生成正確答案,隨後卻陷入錯誤的推理路徑。
研究團隊得出結論認為,LRMs僅是模仿推理模式,而未能真正內化或泛化這些模式,這與AGI級推理能力的要求相去甚遠。「這些發現挑戰了業界對LRM能力的普遍假設,並表明當前方法可能正面臨泛化推理的根本障礙。」
開發AGI的競賽
AGI被視為AI發展的終極目標,指的是機器能夠像人類一樣思考和推理,達到與人類智能相當的狀態。
今年1月,OpenAI執行長Sam Altman表示,該公司比以往任何時候都更接近構建AGI。他當時表示:「我們現在確信我們知道如何構建傳統意義上的AGI。」
去年11月,Anthropic執行長Dario Amodei預測,AGI將在未來一兩年內超越人類能力。他說:「如果你僅從這些能力增長的速率來判斷,確實會讓人認為我們將在2026年或2027年實現這一目標。」