OpenZeppelin：OpenAI的EVMbench存在資料污染問題

2026年3月03日

安全稽核公司OpenZepplin發現，EVMbench的資料集中存在訓練資料外洩，以及至少四項無效的高嚴重性漏洞分類。

區塊鏈安全公司OpenZeppelin表示，在對OpenAI新推出的區塊鏈安全人工智慧基準測試EVMbench進行審計時，發現其在方法論和資料上存在缺陷和污染。

EVMbench於今年二月中旬與加密投資公司Paradigm合作推出，旨在評估不同人工智慧模型識別、修復及利用智慧合約漏洞的能力。

在週一的X貼文中，OpenZeppelin表示，歡迎這一創新，但近期決定對EVMbench「以相同的嚴謹標準」進行評估，該標準已廣泛用於其協助保護的所有協議，包括去中心化金融巨頭Aave、Lido和Uniswap等。

在本次審計中，OpenZeppelin發現兩大核心問題：訓練資料污染以及與多項高嚴重性漏洞相關的分類失誤。

「我們審查了資料集，發現存在方法論上的缺陷和無效的漏洞分類，其中至少有四項標記為高嚴重性的漏洞在實際操作中並不可利用,」OpenZeppelin表示。

EVMbench發布後，評估了人工智慧代理理論上發現和利用智慧合約漏洞的能力。Anthropic公司的Claude Open 4.6位居榜首，其次是OpenAI的OC-GPT-5.2以及Google的Gemini 3 Pro。

EVMbench測試或需修訂

針對資料污染問題，OpenZeppelin指出，「AI安全領域最重要的能力是在模型從未見過的程式碼中發現新穎漏洞。」

然而，OpenZeppelin表示，在EVMbench對AI代理進行測試時，所有高分AI代理「很可能在預訓練階段已接觸到與基準測試相關的漏洞報告」。

在EVMbench測試過程中，AI代理的網路連線權限被切斷，因此它們無法直接透過網路搜尋答案。但基準測試所用漏洞均來自2024年到2025年中期期間的120次審計，而這些AI代理的知識訓練截止時間通常設在2025年中期。

因此，AI代理很可能已在自身記憶中儲存了全部問題的答案。

「雖然這並不一定能讓模型立即識別出這些問題，但會降低該測試的有效性。資料集的有限規模進一步縮小了評估面，使資料污染問題更加突出,」OpenZeppelin說道。

OpenZeppelin還指出，EVMbench資料集中存在一些重大事實性錯誤，並認為數個「高嚴重性漏洞」實際上並不成立。

OpenZeppelin表示，其評估了EVMbench歸類為高風險的至少四項漏洞，但這些漏洞實際上無法被利用。然而，EVMbench在評分標準中，對AI代理發現這些被認為是誤報的漏洞依然給出了正面評價。

「這些並非主觀的嚴重性分歧；而是所描述攻擊方式本身並不成立的發現。」

OpenZeppelin最終重申，AI將在提升區塊鏈安全上發揮關鍵作用，但必須正確應用和測試技術，才能最大限度釋放其潛力。

「問題不在於AI會不會改變智慧合約安全——它一定會。關鍵在於，我們用來建構和評估這些工具所使用的資料和基準，是否能達到它們要保護的合約的同等標準。」

Cointelegraph 致力於獨立且透明的新聞報導。本文依據 Cointelegraph 的編輯政策製作，旨在提供準確且及時的資訊。建議讀者自行查證相關資訊。閱讀我們的編輯政策 https://tw.cointelegraph.com/editorial-policy