作者:Anthropoic
編譯:Peggy
編者按:這篇報告基於約 40 萬次 Claude Code 會話,討論 AI 編程工具正在怎樣改變人和代碼之間的關係。
文章最核心的發現是:在智能體編程中,人類主要決定「做什麼」,Claude 主要負責「怎麼做」。用戶承擔大部分規劃決策,Claude 則承擔大部分執行工作。也就是說,AI 正在接管寫代碼、改文件、跑命令、調試等實現環節,但目標設定和結果判斷仍然依賴人。
更重要的是,使用 Claude Code 的效果並不只取決於用戶是否是程序員。報告顯示,在產生代碼的任務中,法律、金融、管理、科研等非技術職業用戶的成功率已經接近軟體工程師。真正影響結果的,是用戶是否理解自己要解決的問題。
這意味著,AI 編程降低的是實現門檻,而不是判斷門檻。未來,懂業務、懂場景、能清楚提出需求和判斷結果的人,可能會比單純會寫代碼的人更能用好 AI。AI 不會自動替代領域知識,反而會放大領域知識的價值。
以下為原文:
關鍵發現
在既有研究基礎上,我們提出了一個用於研究互動式智能體編程的框架。該框架基於對 2025 年 10 月至 2026 年 4 月期間約 40 萬次 Claude Code 會話的隱私保護分析,評估任務構成、人類與 AI 協作方式,以及任務成功率。
在一次典型會話中,人類負責大多數規劃決策,即決定「要做什麼」;Claude 則負責大多數執行決策,即決定「如何完成」。用戶在某一領域的專業知識越強,每條指令觸發 Claude 完成的工作量就越大。在編碼任務中,各主要職業群體的平均成功率——即是否完成了用戶原本想做的事,並且有通過測試、提交代碼等可驗證證據——幾乎與軟體工程師持平。
用戶的領域專業能力越強,會話越有可能以成功告終。不過,中級用戶與專家用戶之間的差距並不大。在我們觀察的七個月裡,用於調試的會話佔比幾乎下降了一半,使用方式也轉向更端到端的智能體用法:部署和運行代碼、分析數據,以及撰寫非代碼文檔。
在這七個月裡,典型任務的價值幾乎在所有工作類型中都有所上升。我們通過與自由職業崗位發布信息進行對比來估算任務價值,結果顯示平均漲幅約為 25%。
引言
智能體編程正在快速興起。自 2025 年底以來,GitHub 項目中出現編碼智能體活動的比例已經翻了一倍多,Claude Code 用戶現在平均每週使用該工具 20 小時。沒有正式編程經驗的人,能否成功指揮一個智能體完成複雜的技術工作?這些工具的快速採用和能力提升,又將如何影響更廣泛的知識工作?我們目前還無法給出完整答案,但可以從 Claude Code 的使用數據中看到一些早期信號。
本報告基於對 2025 年 10 月至 2026 年 4 月期間,約 23.5 萬名用戶、約 40 萬次互動式會話的隱私保護分析,提供 Claude Code 實際使用方式的證據。它延續了我們此前關於 Claude Code 會話中自主性指標,以及 Claude Code 如何改變 Anthropic 內部工作的研究。本文將提出一個用於描述互動式 AI 編程助手使用情況的框架:人們在做什麼工作,誰在做這些工作,以及工作是否成功。我們關注的是用戶通過命令行界面(CLI)、Claude.ai 或 Claude Code 桌面應用使用 Claude Code 的情況。通過追蹤智能體編程使用方式如何隨著模型能力增強而變化,我們可以更好地理解這些工具對編程專業人士和知識工作者勞動力市場的影響。
Claude Code 上發生的事情,或許預示著知識工作的未來走向:智能體會逐漸嵌入非編碼工作。我們發現,Claude 正在處理更複雜、更有價值的任務。與此同時,智能體編程中仍然存在清晰的勞動分工:人類決定要構建什麼,智能體決定如何構建。
我們還看到證據表明,真正放大工具使用效果的是領域專業知識,而不是編程熟練度。尤其是領域專家更容易成功,也更容易從錯誤和誤解中恢復過來。不過,專家與中級用戶之間的差距並不大。這表明,只要在某一領域具備足夠熟練度,就幾乎可以像深度專家一樣有效地使用這類工具。
這些發現讓我們能夠初步觀察勞動力市場可能發生的轉變。在我們的數據中,成功取決於一個人是否理解自己要解決的問題,而不是他是否接受過編程訓練。如果這些模式在整個經濟體系中成立,那麼它意味著,智能體編程工具雖然可能正在吸收一部分偏實現型的工作,但同時也在獎勵那些真正理解自己工作中所解決問題的人。編碼智能體並不是在替代領域專業知識。相反,一個工作者帶給智能體的理解越多,智能體能夠完成的高質量工作就越多。
勞動分工
人們用 Claude Code 做什麼
為了理解人們如何使用 Claude Code,我們將每一次會話歸類到九種工作模式之一,即最能描述該會話目標的單一活動。其中四種模式直接涉及代碼編寫或維護:構建新東西、修復損壞的東西、測試代碼,以及編排其他智能體或自動化流水線。另一類是操作軟體,包括部署、配置、運行流水線和監控系統。還有兩類更偏向於弄清楚「該做什麼」:理解一個現有系統如何運作,以及在動手修改前規劃變更。最後兩類則與代碼無關,或者代碼只是最終產物中的輔助部分:分析數據,以及通過演示文稿和其他基於文字的文檔進行溝通。
約 56% 的會話由編寫代碼(25%)、修復代碼(26%),或測試和編排代碼(5%)構成。操作軟體佔 17%,規劃或探索佔 14%,分析或撰寫文本佔 13%(見圖 1)。

圖 1:九種工作模式。每一次互動式會話都會被歸類為最能描述其目標的單一工作模式。
我們先讓模型閱讀會話記錄,並據此對每次會話進行分類;隨後再使用我們的隱私保護分析工具,將分類結果與每次會話自動記錄的遙測數據進行交叉驗證,包括是否新增或刪除了代碼行。兩類來源之間具有高度一致性。例如,在我們的分類器標記為創建或修改代碼的會話中,超過 90% 在遙測數據中也顯示存在代碼變更。詳情見附錄。
誰來做決定
Claude Code 的自主性有多強?能力評估顯示,其上限已經很高,並且仍在上升。例如在 METR 的時間跨度評估等基準測試中,前沿模型現在已經能夠自主完成原本需要人類花費數小時的軟體任務,並在過程中自行克服障礙。但在實際使用中,情況到底如何?在這裡,我們關注真實會話中,人類和 Claude 各自承擔了多少引導工作。
我們從兩個角度研究這個問題。第一,我們關注人們在多大程度上把決策交給 Claude;第二,我們觀察他們給 Claude 分配了多少行動。為了理解一次會話中的決策分工,我們基於會話內容構建了一個隱私保護的決策歸因分類器。我們要求分類器列出會話中所有有意義的決策,並將這些決策分為規劃決策和執行決策。規劃決策包括要做什麼、採用哪種方法、什麼算完成;執行決策包括要修改哪些文件、寫什麼代碼、用什麼語言寫,以及運行哪些命令。隨後,分類器會將每個決策歸因於 Claude 或用戶,並為每次會話生成兩個數字:用戶承擔的規劃決策佔比,以及用戶承擔的執行決策佔比。
平均而言,人類大約做出 70% 的規劃決策,但只做出 20% 的執行決策(見圖 2)。在實際使用中,智能體編程形成了清晰的勞動分工:人類決定要構建什麼,智能體決定如何構建。
為了理解一次會話中行動的委派程度,我們不看內容,而是看會話結構。Claude Code 會話由 Claude 和用戶之間的來回交互構成:用戶發送提示詞,Claude 執行動作;隨後用戶再發送下一條提示詞,如此往復。在典型會話中,這樣的輪次約為四輪。在我們 10 月至 4 月的歷史數據中,用戶每發出一條提示詞,平均會觸發 Claude 執行約 10 個動作,有時甚至超過 100 個動作。在每一輪中,Claude 會讀取文件、編輯代碼、運行命令,並平均輸出 2400 個詞。
Claude 在兩次用戶檢查之間完成多少工作,很大程度上取決於誰在做決策。當用戶保留對執行過程的控制權時,也就是用戶做出超過 80% 的執行決策時,Claude 每輪執行的動作更少,約為 8 個。而當 Claude 掌握規劃控制權時,也就是 Claude 做出超過 80% 的規劃決策時,它承擔的動作數量最高,約為 16 個。

圖 2:Claude 在規劃和執行決策中的佔比。該圖展示了不同會話中,規劃決策(做什麼)和執行決策(如何做)歸因於 Claude 而非用戶的比例分佈。在典型會話中,用戶做出約 70% 的規劃決策,而 Claude 做出約 80% 的執行決策。
專業水平
根據每份會話記錄,Claude 會以五級量表評估用戶在該任務上的表觀專業水平,從新手到專家。專業水平分類器關注三個信號:用戶給出指令的精確程度、用戶要求 Claude 驗證什麼,以及是用戶更常糾正 Claude,還是 Claude 更常糾正用戶。需要注意的是,這裡的專業水平與職位或一般能力是完全不同的概念,而且關鍵在於,它是針對具體任務的。一個資深工程師第一次詢問 Rust 問題,在 Rust 任務上仍然可能是初學者。一個從未使用過 Python 的會計,如果能準確告訴 Claude 某個 Python 腳本必須執行哪些對賬規則,並能抓住其在月末結賬時誤處理的邊界情況,那麼他就是該任務上的專家。
下表展示了我們如何在分類器中定義各級專業水平,並給出來自公開編碼智能體會話數據集 SWE-chat 的示例請求。被歸類為「新手」的對話給出的是泛泛指令,沒有體現特定領域知識;被歸類為「專家」的對話則傳達了對代碼庫和技術環境的深入理解。

表 1:專業水平分類器。示例對真實會話進行了改寫、匿名化和壓縮,相關會話由我們的分類器標註。其中許多示例來自公開的智能體編程會話數據集 SWE-chat。
我們量化了專業水平與 Claude 每條提示詞所產生輸出和活動量之間的關係。在典型的新手會話中,每條提示詞會觸發 Claude 執行約 5 個動作,並輸出約 600 個詞;而在專家會話中,動作鏈長度超過前者兩倍,約為 12 個動作,輸出量則達到約 3200 個詞,是前者的五倍(見圖 3)。這種新手與專家之間的差距,出現在每一種工作類型和每一個任務價值區間中。
這些指標補充了我們此前關於 Claude Code 的自主性研究。此前的研究追蹤智能體運行時長,以及用戶多頻繁地自動批准其行動。相比之下,我們的決策歸因指標捕捉的是整次會話中誰在做實質性決策,而每條提示詞觸發的輸出量和動作數,則衡量每條人類指令能夠引發 Claude 多大程度的自主活動。

圖 3:面對更專業的使用者,Claude 每條提示詞完成更多工作。專業水準越高,Claude 每條提示詞產生的動作數(左側長條圖)和文字輸出量(右側長條圖)越多。箱體表示四分位區間,並在中位數處切分。鬚線表示第 5 百分位至第 95 百分位。白點為幾何平均值。兩個上升趨勢均具有統計顯著性(p < 0.001),相鄰專業級別之間的每一步差異也具有統計顯著性。在控制工作模式、任務價值、月份、職業和模型系列,並按使用者聚類標準誤後,這一趨勢仍然顯著:專業水準每提升一級,動作數增加 9%,輸出量增加 13%。
誰在使用 Claude Code,以及他們用它做什麼
使用者
為了理解是誰在做這些工作,我們根據會話記錄推斷每位使用者的職業,並將其對應到美國勞工統計局標準職業分類(SOC)體系中的 23 個主要類別之一。分類器被要求只依據如下訊號進行判斷:智慧體在會話開始時載入的專案上下文、檔案名稱和結構、使用者引用的資料或產物,例如法律文件、臨床資料、財務報告、課程材料等,以及使用者使用的詞彙。分類器被明確要求,不得將「正在寫程式碼」本身視為使用者從事程式設計職業的證據。只有在存在明確訊號表明軟體或資料工作是使用者職業時,會話才會被歸入編碼相關 SOC 類別,即「電腦與數學職業」。如果一名律師構建一個指令碼,用於自動檢查一組合約中是否缺少某些條款,那麼即便這次會話主要是在寫軟體,它仍會被歸入法律職業。如果沒有任何關於使用者職業的訊號,該會話則不分類。
我們能夠在約 70% 的會話中推斷出職業。在這些可分類會話中,「電腦與數學職業」是最大的群體,這並不令人意外,因為該類別涵蓋了大多數軟體相關工作。其次是商業與金融營運、藝術設計與媒體、管理,以及生命科學、物理科學和社會科學。在我們的樣本中,成長最快的非軟體職業群體是管理、銷售和法律職業。
工作
從 2025 年 10 月到 2026 年 4 月,人們使用 Claude Code 完成的工作構成發生了顯著變化。最明顯的變化是,用於修復損壞程式碼的會話佔比從 33% 下降到 19%(見圖 4)。取而代之的是更多圍繞程式碼展開的工作。操作軟體的佔比從 14% 上升到 21%。寫作和資料分析大約翻了一倍,從約 10% 上升到約 20%。
任務本身的價值也在上升。我們透過估算同類工作在自由職業市場上的成本來近似衡量每次會話的經濟價值,並使用真實公開職位資料集進行校準。按照這一指標,平均會話的估算價值在 10 月至 4 月期間上升了 27%。這一上升出現在多種工作類型中。構建、操作和修復類任務的價值分別大約成長了 43%、34% 和 32%。這些價格估算較為粗略,因此我們主要用它們來比較不同任務之間隨時間變化的趨勢,而不是將其作為可直接讀取的美元價值。有關任務價值估算器構建方式的詳情,見附錄。

圖 4:2025 年 10 月至 2026 年 4 月 Claude Code 工作構成與價值變化。該圖展示了七個月窗口期內,各類工作模式在會話中的佔比。修復損壞程式碼的會話佔比從 33% 下降到 19%,而操作軟體、分析資料和撰寫文件的佔比上升。
成功取決於使用者帶來了什麼
估算任務價值,是理解 Claude Code 如何幫助人們完成工作的一種方式。另一個角度,是觀察有多少會話成功,以及哪些會話特徵與成功相關。在所有成功指標中,我們都看到一個清晰模式:使用者在會話中表現出的專業水準越高,會話成功的可能性越大。大部分提升集中在專業水準較低的一端,也就是說,從新手到中級使用者的差距,大於從中級使用者到專家使用者的差距。
在分析成功會話的特徵之前,我們需要準確說明如何衡量成功。我們無法觀察使用者的真實世界結果,也無法直接詢問他們是否透過 Claude 完成了自己想做的事。因此,我們依賴兩種互補的、基於會話記錄的衡量方法。第一種是「判定成功」,由分類器閱讀完整會話記錄後判斷使用者是否完成了自己原本設定的目標,選項包括成功、部分成功、失敗、無明確目標。隨後,兩個配套分類器會評估該判斷的證據強度,以確定「經驗證成功」。成功訊號分類器會尋找可驗證的成功證據,尤其包括與該工作相匹配的 git 活動,例如提交和拉取請求、測試套件通過,以及使用者明確表示認可。它會按照從「無訊號」到「弱訊號」(1 分)再到「多個硬訊號」(5 分)的等級對會話打分。另一個並行的失敗訊號分類器則會對事情出錯的證據進行評分,包括錯誤、測試失敗、反覆嘗試同一件事,以及使用者對輸出提出反對等。經驗證成功要求兩個條件同時成立:會話被判定為成功,並且至少存在一個硬性的可驗證成功訊號。以下分析關注會話中的成功或失敗程度,因此我們排除了被成功結果分類器判定為「無明確目標」的會話,這類會話約佔完整樣本的 7.7%。
專業水準的回報
那麼,哪些會話最容易成功?結果顯示,上文所述的會話專業水準評分,對會話成功具有很大影響。
有人可能會擔心,專業水準並不是真正的驅動因素。也許專家只是選擇了不同的任務,或者在其他方面存在差異。在本節中,我們透過比較相同工作類型、相同估算價值、相同月份、相同主題、來自同一大類職業群體的會話,部分回應了這種擔憂,並考察使用者專業水準不同會如何影響結果。

表 2:由分類器推導出的成功與失敗定義。範例來自公開智慧體程式設計互動資料集 SWE-chat 中的真實會話,經改寫和總結後由我們的分類器標註。
在所有成功指標中,使用者在會話中表現出的專業水準越高,會話越可能成功。被評為新手的會話,在我們最嚴格的指標「經驗證成功」上達到成功的比例為 15%,達到至少部分成功的比例為 77%。而被評為中級及以上的會話,經驗證成功率為 28% 至 33%,部分成功率為 91% 至 92%(見圖 5)。
在每一種指標中,大部分收益都來自從新手到中級的提升;從中級到專家,斜率則會放緩。關於圖 5 背後的迴歸分析細節,見附錄。

圖 5:專業水準與會話結局。該圖按照使用者在任務中的專業水準評分,從新手到專家五個等級,展示會話結果。左圖包含所有會話。中圖和右圖則僅限於遇到問題的會話,即失敗訊號大於 3 的會話,並展示這些會話最終達到不同成功和失敗定義的比例。每個點都是調整後的比率。我們透過只比較具有相同工作模式、相同任務價值區間、相同月份、相同任務主題,以及相同使用者類型,即是否屬於軟體相關職業的會話,來估計不同專業水準之間的差異。相關迴歸細節見附錄。鬚線為樣本均值的信賴區間,大多數由於過小而在圖中不可見。這些圖排除了被成功結果分類器判定為「無明確目標」的會話。
在遇到挑戰的會話中,也可以看到類似的梯度。當失敗訊號記錄到經驗證的失敗證據時,我們認為該會話「遇到問題」。這可能包括出現錯誤、測試失敗、多次嘗試完成同一件事,或者使用者表達挫敗和不滿。在遇到問題的會話中,控制上述所有變數後,經驗證成功的比例從新手會話的 4% 上升到專家會話的 15%(見圖 5)。如果使用更寬鬆的成功指標,我們發現至少部分成功的比例,在新手使用者中為 60%,在中級至專家使用者中則為 80% 至 81%。
我們也追蹤了另一種反向關係,即專業水準與各類失敗指標之間的關係。需要注意的是,在這項分析中,被判定為失敗的會話,是那些連部分成功都沒有達到的會話。如果一次遇到問題的會話被判定為失敗,並且沒有寫入任何程式碼行,我們稱之為被放棄。在使用者看起來是新手的會話中,有 19% 最終被放棄;而在其他使用者群體中,這一比例為 5% 至 7%。換言之,經驗最少的使用者在努力達成目標卻遇到困難時,更容易放棄。專業能力的一部分價值,似乎體現在能夠把智慧體引導回正確方向。
職業可能不如專業水準重要
軟體相關職業使用者在所有會話中的經驗證成功率約為 30%,其他職業使用者約為 26%。在產生程式碼的會話中,即至少新增或修改一行程式碼的會話中,這兩個數字分別為 34% 和 29%(見圖 6)。如果使用更寬鬆的成功定義,軟體相關職業與其他職業之間的差距會進一步縮小。在產生程式碼的會話中,兩類使用者達到至少部分成功的比例分別為 89% 和 88%。五個百分點的差距並不大,並且在七個月中既沒有擴大,也沒有縮小,儘管兩個群體的成功率都在提升。在產生程式碼的會話中,我們資料集裡規模最大的十個職業群體,每一個與軟體工程師在成功率上的差距都在七個百分點以內。管理類職業在經驗證成功率上最高,略高於軟體工程類職業。管理者更高的經驗證成功率,可能反映了管理技能可以遷移到指揮智慧體這一任務上。但這也可能部分來自我們的測量方式:驗證在一定程度上依賴會話中使用者的明確確認,而管理者可能更習慣在得到自己想要的結果時進行表達。

圖 6:按推斷職業劃分的編碼會話判定成功率與經驗證成功率。該圖展示了在至少新增或修改一行程式碼的會話中,按照使用者推斷職業劃分的嚴格成功定義比例,包括判定成功和經驗證成功。圖中展示的是十個規模最大的職業群體。每個群體與軟體/數學類使用者,即 SOC 分類中的電腦與數學職業使用者,在成功率上的差距都在七個百分點以內。誤差線表示基於不同帳戶計算的 95% 信賴區間。
展望
本報告的結果勾勒出一幅正在形成的圖景:智能體編程正在放大某些知識和技能,同時替代另一些技能。在產生代碼的會話中,各主要職業的成功率都與軟體相關職業相差不大。看起來,編碼智能體正在讓是否具備編程背景,對成功完成編程任務變得不那麼重要。
與此同時,成功會話更可能表現出領域專業知識。被評為專家的會話,其經驗證成功率是新手會話的兩倍以上。當會話遇到問題時,新手放棄的比例也比其他用戶高出數倍。協作方式本身讓這一圖景更清晰:領域專家能夠用每一條指令引導 Claude 完成更多工作。因此,將 Claude 引向成功的能力,更多來自對某一領域的掌握,而不是書寫代碼的能力。任何領域中具備這種掌握能力的人,現在都可能完成過去無法完成的技術工作。而缺乏這種專業理解的人,即使用同樣的工具,收穫也會少得多。並且,收益主要來自勝任,而不是精通。對某一領域有可操作的理解,就已經能獲得大部分收益;深度專業化在此基礎上只會再帶來少量額外優勢。
這些發現仍是初步的。與我們大多數研究一樣,我們無法衡量真實世界結果,例如一次會話中寫出的代碼後來究竟被使用還是被丟棄,或者它是否產出了具有經濟價值的成果。此外,本報告排除的非互動式使用,佔總體活動中的相當大一部分。開發一個能夠衡量這類使用的框架,是未來工作的重點之一。並且,我們對會話的所有分類,都依賴模型對會話記錄的閱讀。在附錄中,我們展示了分類器與獨立遙測數據在預期方向上保持一致,並且在多數會話中與強參考模型判斷一致。但在大規模場景下,驗證分類器仍然很難;Claude Code 會話本身也增加了難度,因為它們可能過長且過於複雜,難以用人工標註作為真實基準。
隨著模型、用戶以及二者之間的勞動分工不斷變化,本報告中的圖景也會持續更新。我們希望這些指標能夠幫助我們追蹤正在發生的重大轉變。例如,如果未來專業水準帶來的回報開始下降,那將表明模型開始提供用戶目前所帶來的關鍵判斷,而這些工具的收益也將從領域專家擴展到更廣泛的人群。如果軟體職業之外的用戶成功完成編碼會話的比例繼續上升,則可能意味著軟體生產正在成為各領域普通工作的一部分,而不再是單一職業的產物。這些轉變將改變誰能從智能體編程中受益,以及受益多少,並對勞動力市場中最被重視的能力產生影響。

