蘋果研究人員認為人工智慧（AI）模型離達到AGI級推理能力仍相距甚遠

據蘋果研究人員發現，領先的AI模型在推理方面仍存在顯著困難，這表明通用AI（AGI）的開發道路依然漫長。

蘋果研究人員在6月發表的一篇名為《思考的幻覺》的論文中指出，儘管領先的AI大型語言模型(LLMs)如OpenAI的ChatGPT和Anthropic的Claude最近更新中整合了大型推理模型(LRMs)，但它們的基礎能力、擴展特性和局限性「至今仍未被充分理解」。

他們強調，當前的評估體系主要關注既定的數學和程式設計基準，「過度強調最終答案的準確性」。

然而，研究人員表示，這種評估方法並不能真正揭示AI模型的推理能力。

該研究結果與業界預期通用AI僅需幾年即可實現的觀點形成了鮮明對比。

蘋果研究人員測試「思考型」AI模型

研究團隊設計了多種不同的益智遊戲，用於測試Claude Sonnet、OpenAI的o3-mini和o1以及DeepSeek-R1和V3聊天機器人的「思考」和「非思考」變體，評估範圍超越了標準數學基準。

他們發現，「前沿LRMs在超出特定複雜度後會面臨完全的準確性崩潰」，無法有效泛化推理能力，且隨著問題複雜性增加，它們的優勢逐漸消失，這與人們對AGI能力的期望大相逕庭。「我們發現LRMs在精確計算方面存在明顯局限性：它們無法運用明確的演算法，且在不同謎題中的推理過程缺乏一致性。」

最終答案和中間推理軌跡的驗證(上圖)，以及顯示非思考模型在低複雜度下更準確的圖表(下圖)。來源: 蘋果機器學習研究

研究人員觀察到模型推理不一致且膚淺，同時還發現了過度思考現象，即AI聊天機器人早期能生成正確答案，隨後卻陷入錯誤的推理路徑。

研究團隊得出結論認為，LRMs僅是模仿推理模式，而未能真正內化或泛化這些模式，這與AGI級推理能力的要求相去甚遠。「這些發現挑戰了業界對LRM能力的普遍假設，並表明當前方法可能正面臨泛化推理的根本障礙。」

四種謎題環境的插圖。來源：蘋果

AGI被視為AI發展的終極目標，指的是機器能夠像人類一樣思考和推理，達到與人類智能相當的狀態。

今年1月，OpenAI執行長Sam Altman表示，該公司比以往任何時候都更接近構建AGI。他當時表示：「我們現在確信我們知道如何構建傳統意義上的AGI。」

去年11月，Anthropic執行長Dario Amodei預測，AGI將在未來一兩年內超越人類能力。他說：「如果你僅從這些能力增長的速率來判斷，確實會讓人認為我們將在2026年或2027年實現這一目標。」