區塊鏈安全公司OpenZeppelin表示,在對OpenAI新推出的區塊鏈安全人工智慧基準測試EVMbench進行審計時,發現其在方法論和資料上存在缺陷和污染。
EVMbench於今年二月中旬與加密投資公司Paradigm合作推出,旨在評估不同人工智慧模型識別、修復及利用智慧合約漏洞的能力。
在週一的X貼文中,OpenZeppelin表示,歡迎這一創新,但近期決定對EVMbench「以相同的嚴謹標準」進行評估,該標準已廣泛用於其協助保護的所有協議,包括去中心化金融巨頭Aave、Lido和Uniswap等。
在本次審計中,OpenZeppelin發現兩大核心問題:訓練資料污染以及與多項高嚴重性漏洞相關的分類失誤。
「我們審查了資料集,發現存在方法論上的缺陷和無效的漏洞分類,其中至少有四項標記為高嚴重性的漏洞在實際操作中並不可利用,」OpenZeppelin表示。

EVMbench發布後,評估了人工智慧代理理論上發現和利用智慧合約漏洞的能力。Anthropic公司的Claude Open 4.6位居榜首,其次是OpenAI的OC-GPT-5.2以及Google的Gemini 3 Pro。
EVMbench測試或需修訂
針對資料污染問題,OpenZeppelin指出,「AI安全領域最重要的能力是在模型從未見過的程式碼中發現新穎漏洞。」
然而,OpenZeppelin表示,在EVMbench對AI代理進行測試時,所有高分AI代理「很可能在預訓練階段已接觸到與基準測試相關的漏洞報告」。
在EVMbench測試過程中,AI代理的網路連線權限被切斷,因此它們無法直接透過網路搜尋答案。但基準測試所用漏洞均來自2024年到2025年中期期間的120次審計,而這些AI代理的知識訓練截止時間通常設在2025年中期。
因此,AI代理很可能已在自身記憶中儲存了全部問題的答案。
「雖然這並不一定能讓模型立即識別出這些問題,但會降低該測試的有效性。資料集的有限規模進一步縮小了評估面,使資料污染問題更加突出,」OpenZeppelin說道。
OpenZeppelin還指出,EVMbench資料集中存在一些重大事實性錯誤,並認為數個「高嚴重性漏洞」實際上並不成立。
OpenZeppelin表示,其評估了EVMbench歸類為高風險的至少四項漏洞,但這些漏洞實際上無法被利用。然而,EVMbench在評分標準中,對AI代理發現這些被認為是誤報的漏洞依然給出了正面評價。
「這些並非主觀的嚴重性分歧;而是所描述攻擊方式本身並不成立的發現。」
OpenZeppelin最終重申,AI將在提升區塊鏈安全上發揮關鍵作用,但必須正確應用和測試技術,才能最大限度釋放其潛力。
「問題不在於AI會不會改變智慧合約安全——它一定會。關鍵在於,我們用來建構和評估這些工具所使用的資料和基準,是否能達到它們要保護的合約的同等標準。」

