Pantera Capital和富蘭克林鄧普頓數位資產部門已加入Arena首批參與陣容。Arena是開源AI實驗室Sentient新推出的測試環境,旨在評估AI智慧體在企業級工作流程中的表現。
據Sentient週五向Cointelegraph發布的公告,Arena被定位為生產環境級的基準測試平台,而非靜態模型測試。它不僅根據固定資料集對智慧體進行評分,還會讓它們完成標準化的企業場景任務,包括長篇文件、不完整資訊和衝突資料來源。
Sentient Labs產品負責人Oleg Golev在接受Cointelegraph採訪時表示:“在這個初始階段,合作方將以支持Arena專案和開發者團隊的方式參與。”
他表示,合作夥伴在共同探索什麼才是面向生產、適用於文件密集型任務(如分析、合規和營運)的推理能力。各公司此次並未宣布與該計畫相關的資金承諾。
本次平台發佈正值企業加速將AI智慧體部署到研究和營運流程之際,但AI治理框架建設尚未跟上步伐。
據 Celonis於2月4日發佈的《2026流程優化報告》指出,85%受訪高階主管計劃三年內實現“智慧體企業”轉型,目前僅有19%企業實際運用多智慧體系統。

面向生產環境的評估而非靜態評分
Golev表示,Arena是一個共享平台,開發者可以將AI智慧體提交至標準化任務下,在一致的測試條件下對比結果。
該平台記錄失敗類別,包括幻覺、證據缺失、引用錯誤和推理漏洞,幫助開發者診斷反覆出現的問題。
Arena計劃通過公開排行榜發布對比效能指標,並公布總結常見失效模式及修復方法的事故分析報告。
基礎設施合作夥伴包括OpenRouter和Fireworks,為首批團隊提供推理運算力支援,其他合作方則提供工具和研討會資源。
在AI自主性提升背景下的治理層
該專案推出之際,金融及加密企業正積極嘗試賦予AI系統更大的經濟自主權。
週三,MoonPay上線了基礎設施,支援AI智慧體自主創建錢包並執行穩定幣交易。
週四,Stripe高層警告稱,隨著AI驅動的商業活動擴張,區塊鏈或需實現重大擴容改進。

