Founders Fund、Pantera與Franklin Templeton加入Sentient的 “Arena”,對企業級AI智能體進行壓力測試

  • 過去兩年,企業加速引入AI智能體到工作流程,但面臨推理不穩定、高風險問題。
  • 開源AI實驗室Sentient推出Arena,一個實時測試環境,用於壓力測試AI智能體推理能力。
  • 參與方包括Founders Fund、Pantera、Franklin Templeton等機構,顯示對AI評測的興趣。
  • Arena模擬真實工作流程混亂,記錄推理軌跡,提供中立基準,聚焦生產級表現。
  • 第一項挑戰為文檔推理,支援金融分析、客戶服務等場景。
  • 調研顯示85%企業希望成為智能體企業,但治理不足,Arena旨在解決部署難題。
  • 專家強調智能體在生產環境中的可靠性、可重複性和信任建立。
總結

過去兩年裡,企業一直在加速把AI 智能體引入真實工作流程:從客服、後台運營,到金融與合規等需要高強度決策的流程。隨著這些系統越來越多地被嵌入實際業務,一個新問題正在浮現:智能體能夠檢索訊息,但當工作變得「髒」、多步驟、或高風險時,它們往往難以給出穩定、可解釋、可複現的推理過程。

今天,開源AI 實驗室Sentient 正式推出Arena——一個實時、可投入生產級使用的環境,面向全球數千名AI 開發者,用來對各種企業最難的推理問題進行壓力測試與競賽式迭代。 Arena 初始階段的首批參與陣容包括Founders Fund、Pantera,以及管理資產規模超過1.5 兆美元的Franklin Templeton(富蘭克林鄧普頓)——這也釋放出一個信號:機構正在對「在上線部署前,對AI 智能體進行結構化評測」產生早期、明確的興趣。

「當企業把AI 智能體應用到研究、營運和麵向客戶的工作流程時,問題已經不再是這些系統是否足夠強大……而是它們在真實工作流程中是否可靠。」Franklin Templeton Digital Assets(富蘭克林鄧普頓數位資產)管理合夥人Julian Love 表示。 Love 補充說,像Arena 這樣的結構化環境,將幫助業界把「有潛力的想法」和「真正能用於生產的能力」區分開來。

Arena 模擬了企業工作流程的真實混亂:資訊不完整、上下文很長、指令含糊、來源互相衝突。 Arena 不僅評判智能體是否給出“正確答案”,而是記錄完整的推理軌跡(reasoning trace),以便工程團隊定位失敗原因,並長期驗證改進是否有效。

這為跨模型、跨技術棧的推理評估提供了一個中立、與廠商無關的基準(vendor-agnostic benchmark)。 Arena 強調生產級表現而非Demo 表現,從而形成可驗證、適用於高風險場景的智能體能力,企業也可以把這些能力遷移到自己的私有資料和內部工具上。

在第一項挑戰中,加入Arena 的開發者將聚焦於一個企業級基礎難題:文檔推理(document reasoning)。 AI 智能體需要對複雜、非結構化資料進行推理與計算——這類工作是金融分析、根因調查、投資備忘錄撰寫、客戶服務等場景的底層支撐。

其他初始階段的參與者還包括alphaXiv、Fireworks、OpenHands、OpenRouter 等;隨著Arena 在任務、行業與模型整合上的擴展,預計還會有更多參與者加入。

近期研究也凸顯了Arena 試圖解決的缺口:85% 的企業表示希望成為“智能體企業(agentic enterprises)”,近四分之三計劃部署自治智能體,但真正擁有成熟治理體系的不到四分之一;許多企業難以把試點擴展到大規模生產部署。企業平均已經在運作約十幾個智能體,通常分散在各自孤立的場景中;不少企業認為,如果沒有更好的編排與協同能力,繼續增加智能體只會帶來複雜度上升,價值反而下降。

“在OpenHands,我們一直很願意支持開發者使用智能體解決真實、實用的問題。”OpenHands 首席科學家兼聯合創始人Graham Neubig 表示,“我們也很高興支持參賽者使用OpenHands Software Agent SDK 來應對這些複雜挑戰。”

OpenRouter 聯合創始人兼CEO Alex Atallah 表示:“Arena 正是那種能推動開源AI 向前的計劃——它讓研究者可以在公開環境中競爭、迭代和創新。我們很期待與Sentient 加深合作,並提供基礎設施,讓實驗更快、更容易規模化。”

Arena 將面向全球啟動,邀請數千名AI 開發者申請加入第一期限定隊列,並從2026 年3 月起在舊金山舉行線下活動。

備註(Notes To Editor):

  1. Franklin Templeton Digital Assets 管理合夥人Julian Love 表示:「當企業把AI 智能體應用到研究、營運和客戶工作流程時,問題不再是這些系統是否強大、或是否能產生一個答案,而是它們在真實工作流程中是否可靠。像Arena這樣的沙盒環境,讓智能體在真實、複雜的工作流裡被測試,且其推理過程可被檢查,這將幫助生態把有前景的想法與可生產落地的能力區分開來,並提升對這項技術如何被集成與規模化的信心。

  2. OpenRouter 聯合創始人兼CEO Alex Atallah 表示:“Arena 正是推動開源AI 前進的那類計劃——它讓研究者可以在公開場域競爭、迭代、創新。我們很期待與Sentient 加深合作,並提供基礎設施,讓實驗更快、更容易規模化!”

  3. OpenHands 首席科學家兼聯合創始人Graham Neubig 表示:“在OpenHands,我們一直很願意支持開發者使用智能體解決真實、實用的問題。我們也很高興支持參賽者使用OpenHands Software Agent SDK 來應對這些複雜挑戰。”

關於Sentient Labs

Sentient Labs是一家領先的技術研究與產品組織,致力於推動開源AI 的發展。作為Sentient Foundation 旗下的創新引擎,Sentient Labs 在AI 推理、對齊與智能體協作等方向進行前沿研究。 Sentient 是ROMA 等高效能框架以及Dobby 等開源模型的核心研發方。 Sentient 的使命是讓開源AI 從「實驗」走向「必需」。透過提供建構強大、可組合智慧體系統的基礎設施,Sentient 讓開發者能夠對開源工具實現商業化,並達到企業級可用性。 Sentient 致力於推動開源成為全球關鍵任務AI 營運的預設標準。

分享至:

作者:项目动态

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:项目动态如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊