PANews는 3월 8일 SlowMist CISO 23pads가 X 플랫폼에 게재한 기사를 인용하여, PinchBench 벤치마크 테스트가 OpenClaw 에이전트 작업에서 AI 대규모 언어 모델의 성능을 평가한다고 보도했습니다. 테스트 결과, Gemini 3 Flash가 OpenClaw 작업 처리에서 95.1%의 성공률로 선두를 차지했으며, minimax-m2.1과 kimi-k2.5가 각각 93.6%와 93.4%로 2위와 3위를 기록했습니다. Claude Sonnet 4.5는 92.7%, GPT-4o는 85.2%의 성공률을 보였습니다.
OpenClaw 프록시 작업 평가: Gemini 3 Flash 성공률 95.1%, GPT-4o 85.2%.
공유하기:
작성자: PA一线
이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.
PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기

