PANews는 2월 27일 코인텔레그래프를 인용하여 오픈소스 AI 연구소인 센티언트(Sentient)가 기업 워크플로우에서 AI 에이전트의 성능을 평가하기 위한 실제 운영 환경 수준의 테스트 환경인 아레나(Arena)를 출시했다고 보도했습니다. 판테라 캐피털(Pantera Capital)과 프랭클린 템플턴(Franklin Templeton)의 디지털 자산 부문이 아레나의 초기 테스트 참여 기업으로 합류했습니다.
센티언트는 아레나가 정적인 모델 테스트가 아니라, 긴 문서, 불완전한 정보, 갈등 요인 등을 포함하는 기업 환경을 시뮬레이션하여 AI 에이전트를 표준화된 방식으로 테스트하는 플랫폼이라고 밝혔습니다. 이 플랫폼은 오류, 증거 누락, 인용 오류, 추론 오류 등의 실패 유형을 추적하여 개발자가 문제를 진단할 수 있도록 지원합니다. 아레나는 공개 순위표를 통해 비교 성능 지표를 게시하고, 일반적인 실패 모드와 해결책을 요약한 테스트 보고서를 발표할 예정입니다.

