模型之外皆屬Harness：Deepseek下場，國內AI競爭主戰場為何變了？

2026年5月中下旬，Deepseek內部組建了全新的Harness團隊，方向為程式碼智慧體產品，內部對標Anthropic旗下的Claude Code。前Jane Street明星量化工程師崔天一在3月加入該團隊，資深研究員陳德里公開證實並負責招聘。在Deepseek的招聘JD中，明確寫著一個公式：「Model + Harness = Agent」。當基礎大模型的能力逐漸拉平，單純比拼參數的時代正在過去。Deepseek親自下場組建工具鏈團隊，標誌著國內AI競爭的主戰場正從「煉大模型」轉向「造工具鏈與辦公落地」。

Deepseek為何親自下場做Harness？

在很長一段時間裡，開發者對Deepseek的期待停留在開源更強大的基礎模型上。但程式碼能力強不等於開發者會將其作為生產力工具。真正改變工作方式的不是聊天框裡的程式碼回答，而是能進入終端、理解專案、讀寫檔案、執行命令、修復錯誤的工程智慧體。在官方出手前，開發者社群已基於Deepseek模型做出了各類開源終端Agent。Deepseek此時組建Harness團隊，意在掌握介面設計權與訓練資料閉環，將社群踩出的路收編為官方主幹產品。

要理解這一戰略意圖，必須先弄清楚Harness到底是什麼。對於非技術背景的讀者而言，「Harness」這個詞可能有些陌生。在Deepseek的公式中，模型負責推理，Harness負責其他一切。Harness原本在工程領域有「馬具」或「安全帶」的意思，引申到AI領域，它指的是Agent的「執行階段基礎設施」。

為了更通俗地理解，我們可以把大模型比作一個高智商打工人的「大腦」和「智力」，而Harness就是這名打工人的「崗位職責說明書、KPI考核標準、辦公防爆牆以及工具箱」。它不是執行前組裝的「鷹架」，也不是提供構建塊的「框架」，而是一個持續執行的系統。它負責編排執行迴圈，分發工具調用，管理上下文，執行安全檢查，並負責錯誤恢復與狀態持久化。大模型本身是無狀態、無環境互動能力的，它只能接收文字輸入並輸出文字。而Harness彌補了這些缺陷，讓模型能夠真正與外部世界互動，執行具體任務。

為什麼基礎模型公司必須親自掌握這套執行階段？核心在於Agent產品不僅是模型能力的出口，更是模型能力的訓練場。Deepseek的JD中強調「實現模型與Harness的共同進化」。在真實的複雜任務中，模型會遇到各種由於環境限制、工具返回異常導致的失敗。Harness記錄這些失敗軌跡，能夠反哺模型訓練，形成飛輪效應。如果任由社群代建，模型廠商將失去最核心的應用層資料回饋，淪為單純的算力與權重提供商。

從工程角度看，優化Harness比單純優化Prompt更能決定Agent的成敗。據技術專家分析，在Agent執行中，工具輸出佔Agent在上下文中實際看到內容的67.6%，而系統提示詞僅佔3.4%。這意味著模型的大部分「視野」被工具調用的結果佔據。如果Harness對工具輸出的格式處理不當，或者未能有效壓縮冗餘資訊，模型就會陷入「上下文腐爛」，導致後續推理品質急劇下降。

更致命的是複合錯誤問題。一個包含10個步驟、每步可靠性為99%的Agent過程，端到端成功率約為90%；當任務複雜度提升到50步時，成功率暴跌至60%。在真實的程式碼庫維護或企業辦公自動化場景中，幾十個步驟的連續操作是常態。此時，模型本身的推理能力再強，也無法彌補機率上的累積損耗。只有透過Harness中的錯誤處理與恢復機制，才能在步驟失敗時進行重試或路徑修正。這正是Harness的工程價值所在，也是Deepseek必須親自下場的原因。

騰訊做連接器，阿里做前端滲透：大廠工具鏈的差異化路徑

Deepseek的轉向並非孤例。據行業媒體報導，強化Agent能力已成為國產基礎大模型2026年的重要發展方向。基礎模型逐漸淪為「水電煤」，競爭主戰場轉向應用層。國內其他大廠也在透過工具鏈尋找差異化卡位，但路徑各不相同，這背後反映了各家生態稟賦和目標用戶的差異。

騰訊在2026年6月打出了企業Agent新底牌，推出WorkBuddy企業版。其核心定位是全場景職場智慧體桌面工作台，主打從個人提效走向組織協同。WorkBuddy企業版支援多Agent並行與業務系統Connector接入，試圖搶佔AI辦公統一入口。騰訊的卡位邏輯依託於其龐大的企業微信與騰訊雲生態。對於大型企業而言，AI辦公的痛點不在於單點工具的極致體驗，而在於能否打通內部孤立的辦公系統。騰訊透過做連接器，讓Agent能夠直接調度企業資料與流程，側重於組織級的協同與複雜任務交付。這種路徑的優勢在於壁壘高，一旦接入企業核心業務流程，替換成本極大；挑戰則在於需要極強的企業服務能力和定製化支援。

阿里則另闢蹊徑，選擇在Web端降低自動化門檻。阿里開源了純前端瀏覽器內GUI Agent框架PageAgent。這一框架無需後端部署，一行程式碼即可讓網站整合AI操作員能力。阿里的卡位邏輯在於賦能Web開發者，讓任何網頁秒變AI原生應用。在大量傳統企業系統無法提供API介面的現實下，透過前端DOM操作實現自動化，是一條務實的降維打擊路徑。這種路徑的優勢在於輕量、易整合，能夠快速覆蓋海量長尾網站；但前端DOM結構頻繁變動也可能帶來穩定性挑戰，對Harness的錯誤恢復能力提出了更高要求。

對比來看，各家不再單純比拼模型跑分，而是根據自身的生態稟賦構建工具鏈。騰訊做連接器，阿里做前端滲透，Deepseek則從開發者最剛需的程式碼工程場景切入。這種分化表明，國內AI行業已經認識到，沒有完美的通用Agent，只有在特定場景下透過厚重的Harness工程打磨出的垂直解決方案。對於企業採購而言，選擇哪家工具鏈，本質上是在選擇哪種自動化路徑：是深度綁定辦公生態，還是靈活嵌入現有Web系統，或是賦能開發者的工程工作流。

Viktor的2000萬美元ARR證明：企業願意為自主執行付費

工具鏈的成熟，正在改變AI參與辦公領域的範式。原生Copilot的邏輯是「起草並等待人類完成」，AI生成一段文案或一段程式碼，最後一步仍需人工介入修改和執行。這種模式下，AI只是一個提效工具，無法真正替代勞動力。企業員工需要時刻盯著AI的輸出，進行校驗和落地，這實際上增加了認知負擔。

海外市場已經出現了範式轉移的明確訊號。作為海外趨勢參照，波蘭AI辦公自動化公司Viktor定位為Slack內的AI員工，在無銷售團隊的情況下實現了2000萬美元年化收入（ARR），服務3萬家企業，並於2026年5月獲7500萬美元A輪融資。Viktor的模式代表了新型AI員工的終局形態：擁有雲端電腦，能長時間持續作業，牢牢把握海量上下文，直接交付結果。

Viktor定位為Tier 3 AI Coworker，這意味著它處理的不再是簡單的問答，而是行銷審計、廣告管理、線索研究等需要多步驟、長時執行的複雜任務。企業端對這種無需人類最後確認、能長時間持續作業的AI存在巨大付費意願。這種商業資料的爆發，證明了辦公自動化的價值錨點已經從「輔助生成」轉移到了「自主執行」。

國內廠商佈局Harness與Agent工具鏈，正是為了承接這一趨勢。當Harness能夠提供足夠的安全護欄、狀態持久化和錯誤恢復能力時，AI就能從需要人類時刻盯著的「實習生」，變成可以獨立交付工作成果的「外包商」。企業採購的關注點也將從模型參數大小，轉向Agent能否穩定執行8小時而不崩潰，能否自動處理API限流與網頁結構變更。對於開發者而言，這意味著構建AI應用的焦點將從「如何寫好Prompt」轉向「如何設計穩健的執行階段環境」。

Token爆炸與「厚框架」的工程壁壘

轉向工具鏈競爭後，企業採購和開發者在實際落地中面臨的挑戰並未減少，反而更加聚焦於工程層面。

首當其衝的是Token爆炸問題。長時執行的Agent在「思考、行動、回饋」的迴圈中，極易因冗餘的工具輸出導致上下文迅速膨脹。開發者社群廣泛討論這一難題，認為這不僅推高了推理成本，更會導致模型注意力分散，任務失敗率驟升。例如，在執行一個網頁資料抓取任務時，如果Harness將整個網頁的HTML原始碼原封不動地塞入上下文，模型很快就會迷失在冗餘資訊中，忘記最初的任務目標。因此，Harness的上下文壓縮與記憶管理能力，成為企業採購時的核心考量指標。一個優秀的Harness必須知道哪些歷史資訊可以丟棄，哪些工具返回結果需要摘要，這考驗的是深厚的工程架構能力，而非模型本身的智力。

這也引發了開發者對「套殼」薄框架的警惕。如果大模型廠商推出的Harness只是簡單的API封裝，提供基本的對話視窗和工具調用介面，將缺乏實際的除錯價值。生產環境中的脆弱性，要求Harness必須具備沙箱隔離、細粒度許可權控制、斷點續傳等「厚框架」特性。只有具備深厚工程壁壘的執行階段，才能真正解決企業級應用的穩定性需求。例如，在程式碼執行場景中，Harness必須提供安全的沙箱環境，防止模型生成的惡意程式碼破壞宿主系統；在長時任務中，必須支援斷點續傳，避免因網路波動導致整個任務從頭再來。

此外，地緣政治因素為國產Harness留出了巨大的市場真空。Claude Code等海外頂尖工程智慧體產品對中國大陸及中資企業實施訪問限制。國內開發者在無法直接使用這些頂尖工具的情況下，只能尋求國產替代。Deepseek組建Harness團隊，不僅是對技術趨勢的跟進，更是對這一龐大替代需求的回應。

對於企業採購和開發者而言，理解Harness的價值，意味著在選擇AI產品時，不再被炫酷的對話演示所迷惑，而是去追問它的錯誤恢復機制是什麼，上下文管理策略是什麼，以及它能否真正融入現有的工作流。在工具鏈競爭階段，企業應優先考察廠商的工程交付能力和生態相容性，而非單純比較模型跑分；開發者則應關注Harness框架的開放程度和除錯工具鏈完善度，選擇能夠提供深度可控執行階段的平台。