Founders Fund、Pantera與Franklin Templeton加入Sentient的 “Arena”，對企業級AI智能體進行壓力測試

過去兩年裡，企業一直在加速把AI 智能體引入真實工作流程：從客服、後台運營，到金融與合規等需要高強度決策的流程。隨著這些系統越來越多地被嵌入實際業務，一個新問題正在浮現：智能體能夠檢索訊息，但當工作變得「髒」、多步驟、或高風險時，它們往往難以給出穩定、可解釋、可複現的推理過程。

今天，開源AI 實驗室Sentient 正式推出Arena——一個實時、可投入生產級使用的環境，面向全球數千名AI 開發者，用來對各種企業最難的推理問題進行壓力測試與競賽式迭代。 Arena 初始階段的首批參與陣容包括Founders Fund、Pantera，以及管理資產規模超過1.5 兆美元的Franklin Templeton（富蘭克林鄧普頓）——這也釋放出一個信號：機構正在對「在上線部署前，對AI 智能體進行結構化評測」產生早期、明確的興趣。

「當企業把AI 智能體應用到研究、營運和麵向客戶的工作流程時，問題已經不再是這些系統是否足夠強大……而是它們在真實工作流程中是否可靠。」Franklin Templeton Digital Assets（富蘭克林鄧普頓數位資產）管理合夥人Julian Love 表示。 Love 補充說，像Arena 這樣的結構化環境，將幫助業界把「有潛力的想法」和「真正能用於生產的能力」區分開來。

。

Arena 模擬了企業工作流程的真實混亂：資訊不完整、上下文很長、指令含糊、來源互相衝突。 Arena 不僅評判智能體是否給出“正確答案”，而是記錄完整的推理軌跡（reasoning trace），以便工程團隊定位失敗原因，並長期驗證改進是否有效。

這為跨模型、跨技術棧的推理評估提供了一個中立、與廠商無關的基準（vendor-agnostic benchmark）。 Arena 強調生產級表現而非Demo 表現，從而形成可驗證、適用於高風險場景的智能體能力，企業也可以把這些能力遷移到自己的私有資料和內部工具上。

在第一項挑戰中，加入Arena 的開發者將聚焦於一個企業級基礎難題：文檔推理（document reasoning）。 AI 智能體需要對複雜、非結構化資料進行推理與計算——這類工作是金融分析、根因調查、投資備忘錄撰寫、客戶服務等場景的底層支撐。

其他初始階段的參與者還包括alphaXiv、Fireworks、OpenHands、OpenRouter 等；隨著Arena 在任務、行業與模型整合上的擴展，預計還會有更多參與者加入。

近期研究也凸顯了Arena 試圖解決的缺口：85% 的企業表示希望成為“智能體企業（agentic enterprises）”，近四分之三計劃部署自治智能體，但真正擁有成熟治理體系的不到四分之一；許多企業難以把試點擴展到大規模生產部署。企業平均已經在運作約十幾個智能體，通常分散在各自孤立的場景中；不少企業認為，如果沒有更好的編排與協同能力，繼續增加智能體只會帶來複雜度上升，價值反而下降。

“在OpenHands，我們一直很願意支持開發者使用智能體解決真實、實用的問題。”OpenHands 首席科學家兼聯合創始人Graham Neubig 表示，“我們也很高興支持參賽者使用OpenHands Software Agent SDK 來應對這些複雜挑戰。”

OpenRouter 聯合創始人兼CEO Alex Atallah 表示：“Arena 正是那種能推動開源AI 向前的計劃——它讓研究者可以在公開環境中競爭、迭代和創新。我們很期待與Sentient 加深合作，並提供基礎設施，讓實驗更快、更容易規模化。”

Arena 將面向全球啟動，邀請數千名AI 開發者申請加入第一期限定隊列，並從2026 年3 月起在舊金山舉行線下活動。

備註（Notes To Editor）：

Franklin Templeton Digital Assets 管理合夥人Julian Love 表示：「當企業把AI 智能體應用到研究、營運和客戶工作流程時，問題不再是這些系統是否強大、或是否能產生一個答案，而是它們在真實工作流程中是否可靠。像Arena這樣的沙盒環境，讓智能體在真實、複雜的工作流裡被測試，且其推理過程可被檢查，這將幫助生態把有前景的想法與可生產落地的能力區分開來，並提升對這項技術如何被集成與規模化的信心。
OpenRouter 聯合創始人兼CEO Alex Atallah 表示：“Arena 正是推動開源AI 前進的那類計劃——它讓研究者可以在公開場域競爭、迭代、創新。我們很期待與Sentient 加深合作，並提供基礎設施，讓實驗更快、更容易規模化！”
OpenHands 首席科學家兼聯合創始人Graham Neubig 表示：“在OpenHands，我們一直很願意支持開發者使用智能體解決真實、實用的問題。我們也很高興支持參賽者使用OpenHands Software Agent SDK 來應對這些複雜挑戰。”

關於Sentient Labs

Sentient Labs是一家領先的技術研究與產品組織，致力於推動開源AI 的發展。作為Sentient Foundation 旗下的創新引擎，Sentient Labs 在AI 推理、對齊與智能體協作等方向進行前沿研究。 Sentient 是ROMA 等高效能框架以及Dobby 等開源模型的核心研發方。 Sentient 的使命是讓開源AI 從「實驗」走向「必需」。透過提供建構強大、可組合智慧體系統的基礎設施，Sentient 讓開發者能夠對開源工具實現商業化，並達到企業級可用性。 Sentient 致力於推動開源成為全球關鍵任務AI 營運的預設標準。