PANewsは1月5日、2026年の到来に伴い、AIセキュリティ分野が初の大規模ベンチマークテストを迎えると報じました。LISABenchは本日、2026年第1四半期の評価開始を発表しました。これは、実環境テストを通じてWeb3スマートコントラクトの脆弱性検出における最先端AIモデルの中で最高のパフォーマンスを発揮するものを決定することを目的としています。また、LISABenchはコミュニティ投票による予測報酬プログラムも同時に開始します。
今回の評価では、KIMI K2(Moonshot AI)、DeepSeek V3.2、QWen 3 30b-a3b(Alibaba Cloud)、GLM 4.6(Zhipu AI)、GPT-5.2(OpenAI)、Gemini-3-pro-preview(Google)、Claude 4.5 Sonnet(Anthropic)という世界トップクラスの最先端モデル7つが同じステージで競い合うという豪華なラインナップを誇ります。
現在、第1四半期の勝者を予想する投票が受付中です。また、LISABenchベンチマークのコードベースは、開発者がレビューして再現できるようにGitHubでオープンソース化されています。
