PANews 2月27日消息,根據Cointelegraph報道,開源AI實驗室Sentient宣布推出Arena,這是一個用於評估AI代理在企業級工作流程中表現的生產級測試環境。 Pantera Capital和Franklin Templeton的數位資產部門已加入Arena的首批測試隊列。
Sentient表示,Arena並非靜態模型測試,而是透過模擬包含長文件、不完整資訊和衝突來源的企業條件,對AI代理進行標準化任務測試。平台會追蹤幻覺、證據缺失、引用錯誤和推理漏洞等失敗類別,幫助開發者診斷問題。 Arena計畫透過公開排行榜發布對比績效指標,並發布總結常見失敗模式和修復方案的測試報告。

