PANewsは2月27日、Cointelegraphを引用し、オープンソースAIラボSentientが、エンタープライズワークフローにおけるAIエージェントのパフォーマンスを評価するための実稼働グレードのテスト環境「Arena」の立ち上げを発表したと報じた。Pantera CapitalとFranklin Templetonのデジタル資産部門がArenaの初期テストコホートに参加している。
Sentient社は、Arenaは静的なモデルテストではなく、長い文書、不完全な情報、対立の原因を含む企業環境をシミュレートすることで、AIエージェントの標準化されたタスクテストを実現すると述べています。このプラットフォームは、幻覚、証拠の不足、引用エラー、推論の欠陥といった失敗カテゴリーを追跡し、開発者が問題を診断するのを支援します。Arenaは、公開リーダーボードを通じて比較パフォーマンス指標を公開し、一般的な失敗モードと解決策をまとめたテストレポートを公開する予定です。

