누가 Claude Code를 가장 잘 사용할까? 답은 프로그래머가 아닐 수 있다

저자: Anthropoic

편집: Peggy

편집자 주: 이 보고서는 약 40만 건의 Claude Code 세션을 기반으로, AI 프로그래밍 도구가 인간과 코드 간의 관계를 어떻게 변화시키고 있는지 논의합니다.

이 글의 핵심 발견은 다음과 같습니다: 에이전트 프로그래밍에서 인간은 주로 '무엇을 할지' 결정하고, Claude는 주로 '어떻게 할지' 담당합니다. 사용자가 대부분의 계획 결정을 내리고, Claude는 대부분의 실행 작업을 수행합니다. 즉, AI가 코드 작성, 파일 수정, 명령 실행, 디버깅 등의 구현 단계를 대신하지만, 목표 설정과 결과 판단은 여전히 인간에게 의존합니다.

더 중요한 것은, Claude Code 사용 효과가 사용자의 프로그래머 여부에만 달려 있지 않다는 점입니다. 보고서에 따르면, 코드 생성 작업에서 법률, 금융, 경영, 과학 연구 등 비기술 직종 사용자의 성공률이 이미 소프트웨어 엔지니어에 근접했습니다. 결과에 실제로 영향을 미치는 것은 사용자가 해결하려는 문제를 이해하고 있는지 여부입니다.

이는 AI 프로그래밍이 낮추는 것은 구현의 문턱이지, 판단의 문턱이 아님을 의미합니다. 앞으로는 업무와 현장을 이해하고, 요구사항을 명확히 제시하며 결과를 판단할 수 있는 사람이 단순히 코드를 작성할 줄 아는 사람보다 AI를 더 잘 활용할 가능성이 높습니다. AI가 도메인 지식을 자동으로 대체하는 것이 아니라, 오히려 도메인 지식의 가치를 증폭시킬 것입니다.

다음은 원문입니다:

주요 발견

기존 연구를 바탕으로, 우리는 상호작용형 에이전트 프로그래밍을 연구하기 위한 프레임워크를 제안합니다. 이 프레임워크는 2025년 10월부터 2026년 4월까지 약 40만 건의 Claude Code 세션에 대한 개인정보 보호 분석을 기반으로, 작업 구성, 인간-AI 협업 방식 및 작업 성공률을 평가합니다.

일반적인 세션에서 인간은 대부분의 계획 결정, 즉 '무엇을 할지'를 담당하고, Claude는 대부분의 실행 결정, 즉 '어떻게 완료할지'를 담당합니다. 특정 분야에 대한 사용자의 전문성이 높을수록, 각 명령어가 Claude로 하여금 더 많은 작업을 수행하도록 촉발합니다. 코딩 작업에서 주요 직업군의 평균 성공률——즉, 사용자가 원래 하려던 일을 완료했으며 테스트 통과, 코드 제출 등의 검증 가능한 증거가 있는지 여부——은 소프트웨어 엔지니어와 거의 비슷한 수준입니다.

사용자의 도메인 전문성이 강할수록 세션이 성공적으로 끝날 가능성이 높습니다. 하지만 중급 사용자와 전문가 사용자 간의 격차는 크지 않습니다. 우리가 관찰한 7개월 동안 디버깅에 사용된 세션 비율은 거의 절반으로 감소했으며, 사용 방식은 배포 및 코드 실행, 데이터 분석, 비코드 문서 작성 등 보다 엔드투엔드적인 에이전트 활용으로 전환되었습니다.

이 7개월 동안, 일반적인 작업의 가치는 거의 모든 작업 유형에서 상승했습니다. 프리랜서 채용 공고 정보와 비교하여 작업 가치를 추정한 결과, 평균 상승률은 약 25%였습니다.

서론

에이전트 프로그래밍이 빠르게 부상하고 있습니다. 2025년 말 이후, GitHub 프로젝트에서 코딩 에이전트 활동이 있는 비율은 두 배 이상 증가했으며, Claude Code 사용자는 현재 이 도구를 주당 평균 20시간 사용합니다. 공식적인 프로그래밍 경험이 없는 사람도 에이전트를 성공적으로 지휘하여 복잡한 기술 작업을 완료할 수 있을까요? 이러한 도구의 빠른 도입과 능력 향상은 더 넓은 지식 노동에 어떤 영향을 미칠까요? 아직 완전한 답을 내릴 수는 없지만, Claude Code 사용 데이터에서 몇 가지 초기 신호를 볼 수 있습니다.

본 보고서는 2025년 10월부터 2026년 4월까지 약 23만 5천 명의 사용자, 약 40만 건의 상호작용 세션에 대한 개인정보 보호 분석을 바탕으로, Claude Code의 실제 사용 방식에 대한 증거를 제공합니다. 이는 Claude Code 세션의 자율성 지표와 Claude Code가 Anthropic 내부 업무를 어떻게 변화시켰는지에 대한 기존 연구를 잇는 것입니다. 본 글에서는 상호작용형 AI 프로그래밍 도우미의 사용 현황을 설명하기 위한 프레임워크를 제시할 것입니다. 즉, 사람들이 어떤 작업을 하고 있는지, 누가 이 작업을 하고 있는지, 그리고 작업이 성공적인지에 대한 것입니다. 우리는 사용자가 명령줄 인터페이스(CLI), Claude.ai 또는 Claude Code 데스크톱 앱을 통해 Claude Code를 사용하는 경우에 주목합니다. 모델 능력 향상에 따라 에이전트 프로그래밍 사용 방식이 어떻게 변하는지 추적함으로써, 이러한 도구가 프로그래밍 전문가 및 지식 노동자 노동 시장에 미치는 영향을 더 잘 이해할 수 있습니다.

Claude Code에서 일어나는 일은 아마도 지식 노동의 미래 방향을 예고할 것입니다. 에이전트가 점차 비코딩 작업에 내장될 것입니다. 우리는 Claude가 더 복잡하고 가치 있는 작업을 처리하고 있음을 발견했습니다. 동시에 에이전트 프로그래밍에는 여전히 명확한 노동 분업이 존재합니다. 인간은 무엇을 구축할지 결정하고, 에이전트는 어떻게 구축할지 결정합니다.

또한 도구 사용 효과를 실제로 증폭시키는 것은 프로그래밍 숙련도가 아니라 도메인 전문 지식이라는 증거도 확인했습니다. 특히 도메인 전문가는 더 쉽게 성공하고, 오류와 오해에서 더 쉽게 회복합니다. 하지만 전문가와 중급 사용자 간의 격차는 크지 않습니다. 이는 특정 분야에서 충분한 숙련도만 갖추면, 해당 분야의 깊은 전문가만큼 효과적으로 이러한 도구를 사용할 수 있음을 시사합니다.

이러한 발견은 노동 시장에서 발생할 수 있는 변화를 초기에 관찰할 수 있게 해줍니다. 우리 데이터에서 성공은 프로그래밍 교육을 받았는지 여부가 아니라, 해결하려는 문제를 이해하는지 여부에 달려 있습니다. 이러한 패턴이 경제 전반에 걸쳐 성립한다면, 에이전트 프로그래밍 도구가 일부 구현 중심의 작업을 흡수할 수 있지만, 동시에 자신의 업무에서 해결하는 문제를 진정으로 이해하는 사람들에게 보상을 제공한다는 것을 의미합니다. 코딩 에이전트는 도메인 전문 지식을 대체하는 것이 아닙니다. 오히려 작업자가 에이전트에게 더 많은 이해를 제공할수록, 에이전트가 완료할 수 있는 고품질 작업은 더 많아집니다.

노동 분업

사람들이 Claude Code로 무엇을 하는가

사람들이 Claude Code를 어떻게 사용하는지 이해하기 위해, 우리는 각 세션을 해당 세션의 목표를 가장 잘 설명하는 단일 활동인 9가지 작업 모드 중 하나로 분류합니다. 이 중 4가지 모드는 코드 작성 또는 유지보수와 직접적으로 관련됩니다: 새로운 것 구축, 손상된 것 수정, 코드 테스트, 그리고 다른 에이전트 또는 자동화 파이프라인 오케스트레이션. 또 다른 범주는 소프트웨어 운영으로, 배포, 구성, 파이프라인 실행 및 시스템 모니터링을 포함합니다. 두 가지 범주는 '무엇을 해야 하는지' 파악하는 데 더 가깝습니다: 기존 시스템의 작동 방식 이해, 그리고 변경을 시작하기 전 계획 수립. 마지막 두 범주는 코드와 관련이 없거나 코드가 최종 산출물의 보조적인 부분일 뿐입니다: 데이터 분석, 그리고 프레젠테이션 및 기타 텍스트 기반 문서를 통한 커뮤니케이션.

약 56%의 세션이 코드 작성(25%), 코드 수정(26%), 또는 코드 테스트 및 오케스트레이션(5%)으로 구성됩니다. 소프트웨어 운영이 17%, 계획 또는 탐색이 14%, 분석 또는 텍스트 작성이 13%를 차지합니다(그림 1 참조).

그림 1: 9가지 작업 모드. 각 상호작용 세션은 그 목표를 가장 잘 설명하는 단일 작업 모드로 분류됩니다.

우리는 먼저 모델이 세션 기록을 읽고 이에 따라 각 세션을 분류하도록 했습니다. 그런 다음 개인정보 보호 분석 도구를 사용하여 분류 결과를 각 세션에서 자동으로 기록된 원격 측정 데이터(코드 라인 추가 또는 삭제 여부 등)와 교차 검증했습니다. 두 소스 간에는 높은 일관성이 있었습니다. 예를 들어, 분류기가 코드 생성 또는 수정으로 표시한 세션의 90% 이상이 원격 측정 데이터에서도 코드 변경이 있었던 것으로 나타났습니다. 자세한 내용은 부록을 참조하십시오.

누가 결정을 내리는가

Claude Code의 자율성은 어느 정도일까요? 능력 평가에 따르면 그 상한선은 이미 매우 높으며 계속 상승 중입니다. 예를 들어 METR의 시간 범위 평가와 같은 벤치마크에서, 최첨단 모델은 이제 원래 인간이 몇 시간을 소비해야 했던 소프트웨어 작업을 자율적으로 완료하고 그 과정에서 스스로 장애물을 극복할 수 있습니다. 하지만 실제 사용에서는 상황이 어떨까요? 여기서 우리는 실제 세션에서 인간과 Claude가 각각 얼마나 많은 지도 작업을 담당하는지에 주목합니다.

우리는 이 문제를 두 가지 관점에서 연구합니다. 첫째, 사람들이 Claude에게 결정을 어느 정도 위임하는지에 주목합니다. 둘째, 그들이 Claude에게 얼마나 많은 행동을 할당하는지 관찰합니다. 한 세션에서의 의사 결정 분업을 이해하기 위해, 우리는 세션 내용을 기반으로 개인정보 보호형 의사 결정 귀속 분류기를 구축했습니다. 우리는 분류기가 세션 내 모든 의미 있는 결정을 나열하고, 이러한 결정을 계획 결정과 실행 결정으로 나누도록 요청했습니다. 계획 결정에는 무엇을 할지, 어떤 방법을 채택할지, 무엇을 완료로 간주할지가 포함됩니다. 실행 결정에는 어떤 파일을 수정할지, 어떤 코드를 작성할지, 어떤 언어를 사용할지, 어떤 명령을 실행할지가 포함됩니다. 그런 다음 분류기는 각 결정을 Claude 또는 사용자에게 귀속시키고, 각 세션에 대해 두 개의 숫자를 생성합니다. 사용자가 담당한 계획 결정의 비율과 사용자가 담당한 실행 결정의 비율입니다.

평균적으로 인간은 계획 결정의 약 70%를 내리지만, 실행 결정은 20%만 내립니다(그림 2 참조). 실제 사용에서 에이전트 프로그래밍은 명확한 노동 분업을 형성합니다. 인간은 무엇을 구축할지 결정하고, 에이전트는 어떻게 구축할지 결정합니다.

세션 내 행동 위임 정도를 이해하기 위해, 우리는 내용이 아닌 세션 구조를 살펴봅니다. Claude Code 세션은 Claude와 사용자 간의 상호 작용으로 구성됩니다. 사용자가 프롬프트를 보내면 Claude가 작업을 수행하고, 그런 다음 사용자가 다음 프롬프트를 보내는 식으로 반복됩니다. 일반적인 세션에서 이러한 턴은 약 4회입니다. 10월부터 4월까지의 과거 데이터에서 사용자가 프롬프트를 보낼 때마다 평균적으로 Claude가 약 10개의 작업을 수행하도록 촉발했으며, 때로는 100개가 넘는 작업을 수행하기도 했습니다. 각 턴에서 Claude는 파일을 읽고, 코드를 편집하고, 명령을 실행하며, 평균 2400단어를 출력합니다.

Claude가 두 번의 사용자 확인 사이에 완료하는 작업량은 주로 누가 결정을 내리는지에 달려 있습니다. 사용자가 실행 과정에 대한 통제권을 유지할 때, 즉 사용자가 실행 결정의 80% 이상을 내릴 때, Claude는 턴당 더 적은 작업(약 8개)을 수행합니다. 반면 Claude가 계획 통제권을 가질 때, 즉 Claude가 계획 결정의 80% 이상을 내릴 때, Claude가 수행하는 작업 수는 가장 높아 약 16개입니다.

그림 2: 계획 및 실행 결정에서 Claude의 비율. 이 그림은 여러 세션에서 계획 결정(무엇을 할지)과 실행 결정(어떻게 할지)이 사용자가 아닌 Claude에게 귀속된 비율의 분포를 보여줍니다. 일반적인 세션에서 사용자는 계획 결정의 약 70%를 내리고, Claude는 실행 결정의 약 80%를 내립니다.

전문 수준

각 세션 기록을 바탕으로 Claude는 초보자부터 전문가까지 5단계 척도로 해당 작업에 대한 사용자의 표면적 전문 수준을 평가합니다. 전문 수준 분류기는 세 가지 신호에 주목합니다: 사용자 지시의 정확성 정도, 사용자가 Claude에게 무엇을 검증하도록 요구하는지, 그리고 사용자가 Claude를 더 자주 수정하는지 아니면 Claude가 사용자를 더 자주 수정하는지입니다. 주의할 점은, 여기서의 전문 수준은 직위나 일반적인 능력과는 완전히 다른 개념이며, 특히 작업별로 특정된다는 점이 핵심입니다. Rust에 대해 처음 질문하는 시니어 엔지니어는 Rust 작업에서 여전히 초보자일 수 있습니다. Python을 한 번도 사용해본 적 없는 회계사라도, 특정 Python 스크립트가 반드시 수행해야 할 대사 규칙을 Claude에게 정확히 알려주고, 월말 결산 시 잘못 처리된 경계 조건을 포착할 수 있다면, 그는 해당 작업의 전문가입니다.

아래 표는 분류기에서 각 전문 수준을 어떻게 정의하는지 보여주며, 공개 코딩 에이전트 세션 데이터셋인 SWE-chat의 예시 요청을 제공합니다. '초보자'로 분류된 대화는 일반적인 지시만 제공하며 특정 도메인 지식을 나타내지 않습니다. '전문가'로 분류된 대화는 코드베이스 및 기술 환경에 대한 깊은 이해를 전달합니다.

표 1: 전문 수준 분류기. 예시는 실제 세션을 각색, 익명화 및 압축한 것이며, 관련 세션은 분류기에 의해 주석이 달렸습니다. 이 중 많은 예시는 공개 에이전트 프로그래밍 세션 데이터셋인 SWE-chat에서 가져왔습니다.

우리는 전문 수준과 Claude의 각 프롬프트가 생성하는 출력 및 활동량 간의 관계를 정량화했습니다. 일반적인 초보자 세션에서 각 프롬프트는 Claude가 약 5개의 작업을 수행하고 약 600단어를 출력하도록 촉발합니다. 반면 전문가 세션에서는 작업 체인 길이가 전자의 두 배 이상인 약 12개 작업이며, 출력량은 전자의 5배인 약 3200단어에 달합니다(그림 3 참조). 이러한 초보자와 전문가 간의 격차는 모든 작업 유형과 모든 작업 가치 구간에서 나타납니다.

이러한 지표는 Claude Code의 자율성에 대한 이전 연구를 보완합니다. 이전 연구는 에이전트 실행 시간과 사용자가 에이전트의 행동을 얼마나 자주 자동 승인하는지 추적했습니다. 이와 대조적으로, 우리의 의사 결정 귀속 지표는 전체 세션에서 누가 실질적인 결정을 내리는지 포착하며, 프롬프트당 출력량과 작업 수는 각 인간의 지시가 Claude의 어느 정도의 자율적 활동을 촉발할 수 있는지 측정합니다.

그림 3: 더 전문적인 사용자를 대상으로 할 때 Claude는 프롬프트당 더 많은 작업을 완료합니다. 전문 수준이 높을수록 Claude가 프롬프트당 생성하는 액션 수(왼쪽 막대 그래프)와 텍스트 출력량(오른쪽 막대 그래프)이 증가합니다. 상자는 사분위 범위를 나타내며 중앙값에서 분할됩니다. 수염은 5번째 백분위수에서 95번째 백분위수까지를 나타냅니다. 흰색 점은 기하 평균입니다. 두 상승 추세 모두 통계적으로 유의미하며(p < 0.001), 인접한 전문 수준 간의 각 단계 차이도 통계적으로 유의미합니다. 작업 모드, 작업 가치, 월, 직업 및 모델 시리즈를 통제하고 사용자별로 클러스터링된 표준 오차를 적용한 후에도 이 추세는 여전히 유의미합니다. 전문 수준이 한 단계 올라갈 때마다 액션 수는 9%, 출력량은 13% 증가합니다.

누가 Claude Code를 사용하며, 무엇에 사용하는가

사용자

누가 이 작업을 수행하는지 이해하기 위해, 우리는 세션 기록을 바탕으로 각 사용자의 직업을 추론하고 이를 미국 노동통계국 표준 직업 분류(SOC) 체계의 23개 주요 범주 중 하나에 매핑했습니다. 분류기는 세션 시작 시 에이전트가 로드한 프로젝트 컨텍스트, 파일 이름 및 구조, 법률 문서, 임상 데이터, 재무 보고서, 강의 자료 등 사용자가 참조한 자료나 산출물, 그리고 사용자가 사용하는 어휘와 같은 신호만을 바탕으로 판단하도록 요청받았습니다. 분류기는 '코드를 작성하고 있다'는 사실 자체를 사용자가 프로그래밍 직업에 종사한다는 증거로 간주하지 않도록 명시적으로 지시받았습니다. 소프트웨어나 데이터 작업이 사용자의 직업임을 나타내는 명확한 신호가 있는 경우에만 세션은 코딩 관련 SOC 범주, 즉 '컴퓨터 및 수학 직업'으로 분류되었습니다. 변호사가 계약서 세트에서 특정 조항 누락 여부를 자동으로 확인하는 스크립트를 작성하는 경우, 세션의 주된 활동이 소프트웨어 작성이라 할지라도 이는 법률 직업으로 분류됩니다. 사용자 직업에 대한 신호가 전혀 없는 경우, 해당 세션은 분류되지 않습니다.

우리는 약 70%의 세션에서 직업을 추론할 수 있었습니다. 이 분류 가능한 세션 중에서 '컴퓨터 및 수학 직업'이 가장 큰 그룹을 차지했으며, 이는 해당 범주가 대부분의 소프트웨어 관련 작업을 포괄하기 때문에 놀라운 일이 아닙니다. 그 뒤를 이어 경영 및 금융 운영, 예술 디자인 및 미디어, 관리, 그리고 생명 과학, 물리 과학 및 사회 과학 순이었습니다. 우리 표본에서 가장 빠르게 성장하는 비소프트웨어 직업군은 관리, 영업 및 법률 직업입니다.

작업

2025년 10월부터 2026년 4월까지 사람들이 Claude Code를 사용하여 완료하는 작업 구성에 상당한 변화가 있었습니다. 가장 두드러진 변화는 손상된 코드 수정에 사용된 세션 비율이 33%에서 19%로 감소한 것입니다(그림 4 참조). 그 대신 코드를 중심으로 한 작업이 더 많이 이루어졌습니다. 소프트웨어 운영 비중은 14%에서 21%로 증가했습니다. 문서 작성 및 데이터 분석은 약 10%에서 약 20%로 거의 두 배 증가했습니다.

작업 자체의 가치도 상승하고 있습니다. 우리는 실제 공개 채용 공고 데이터셋을 사용하여 보정한 프리랜서 시장에서의 유사 작업 비용을 추정함으로써 각 세션의 경제적 가치를 근사치로 측정합니다. 이 지표에 따르면, 평균 세션의 추정 가치는 10월에서 4월 사이에 27% 상승했습니다. 이러한 상승은 여러 작업 유형에서 나타났습니다. 구축, 운영 및 수정 작업의 가치는 각각 약 43%, 34%, 32% 증가했습니다. 이러한 가격 추정치는 다소 개략적이므로, 직접 읽을 수 있는 달러 가치로 사용하기보다는 시간에 따른 작업 간 추세를 비교하는 데 주로 사용합니다. 작업 가치 추정기 구축 방식에 대한 자세한 내용은 부록을 참조하십시오.

그림 4: 2025년 10월부터 2026년 4월까지 Claude Code 작업 구성 및 가치 변화. 이 그림은 7개월 기간 동안 세션에서 각 작업 모드가 차지하는 비율을 보여줍니다. 손상된 코드 수정 세션 비율은 33%에서 19%로 감소한 반면, 소프트웨어 운영, 데이터 분석 및 문서 작성 비율은 증가했습니다.

성공은 사용자가 무엇을 가져오는가에 달려 있다

작업 가치를 추정하는 것은 Claude Code가 사람들의 작업 완료를 어떻게 돕는지 이해하는 한 가지 방법입니다. 또 다른 관점은 얼마나 많은 세션이 성공하는지, 그리고 어떤 세션 특징이 성공과 관련이 있는지 관찰하는 것입니다. 모든 성공 지표에서 우리는 명확한 패턴을 발견했습니다. 사용자가 세션에서 보여주는 전문 수준이 높을수록 세션이 성공할 가능성이 더 높습니다. 대부분의 향상은 전문 수준이 낮은 쪽에 집중되어 있습니다. 즉, 초보자에서 중급 사용자로의 격차가 중급 사용자에서 전문가 사용자로의 격차보다 더 큽니다.

성공적인 세션의 특징을 분석하기 전에, 성공을 어떻게 측정하는지 정확히 설명할 필요가 있습니다. 우리는 사용자의 실제 결과를 관찰할 수 없으며, Claude를 통해 원하는 작업을 완료했는지 직접 물어볼 수도 없습니다. 따라서 우리는 세션 기록을 기반으로 한 두 가지 상호 보완적인 측정 방법에 의존합니다. 첫 번째는 '판정 성공'으로, 분류기가 전체 세션 기록을 읽고 사용자가 원래 설정한 목표를 달성했는지 여부를 판단하며, 선택지는 성공, 부분 성공, 실패, 명확한 목표 없음입니다. 그 후, 두 개의 보조 분류기가 '검증된 성공'을 결정하기 위해 해당 판단의 증거 강도를 평가합니다. 성공 신호 분류기는 검증 가능한 성공 증거, 특히 해당 작업과 일치하는 커밋 및 풀 리퀘스트, 테스트 스위트 통과, 사용자의 명시적 승인과 같은 git 활동을 찾습니다. '신호 없음'에서 '약한 신호'(1점), '여러 개의 강력한 신호'(5점)까지의 등급으로 세션에 점수를 매깁니다. 또 다른 병렬 실패 신호 분류기는 오류, 테스트 실패, 같은 작업의 반복 시도, 사용자의 출력에 대한 이의 제기 등 문제가 발생했다는 증거에 점수를 매깁니다. 검증된 성공은 두 가지 조건이 동시에 충족되어야 합니다. 세션이 성공으로 판정되고, 최소한 하나의 강력하고 검증 가능한 성공 신호가 존재해야 합니다. 다음 분석은 세션 내 성공 또는 실패 정도에 초점을 맞추므로, 성공 결과 분류기에 의해 '명확한 목표 없음'으로 판정된 세션은 제외했으며, 이는 전체 표본의 약 7.7%에 해당합니다.

전문 수준의 보상

그렇다면 어떤 세션이 성공하기 가장 쉬울까요? 결과는 위에서 설명한 세션 전문 수준 점수가 세션 성공에 큰 영향을 미친다는 것을 보여줍니다.

누군가는 전문 수준이 진정한 동인이 아닐 수 있다고 우려할 수 있습니다. 아마도 전문가들은 단순히 다른 작업을 선택하거나 다른 측면에서 차이가 있을 수 있습니다. 이 절에서는 동일한 작업 유형, 동일한 추정 가치, 동일한 월, 동일한 주제, 동일한 대분류 직업군에 속하는 세션을 비교하여 이러한 우려에 부분적으로 대응하고, 사용자 전문 수준의 차이가 결과에 어떤 영향을 미치는지 조사합니다.

표 2: 분류기에 의해 도출된 성공 및 실패 정의. 예시는 공개 에이전트 프로그래밍 상호작용 데이터셋 SWE-chat의 실제 세션에서 가져와 각색 및 요약한 후 우리 분류기가 라벨링한 것입니다.

모든 성공 지표에서, 사용자가 세션에서 보여주는 전문 수준이 높을수록 세션이 성공할 가능성이 더 높습니다. 초보자로 평가된 세션은 가장 엄격한 지표인 '검증된 성공' 기준으로 15%의 성공률을, 최소 부분 성공 기준으로는 77%의 성공률을 달성했습니다. 반면 중급 이상으로 평가된 세션의 검증된 성공률은 28%에서 33%, 부분 성공률은 91%에서 92%였습니다(그림 5 참조).

모든 지표에서 대부분의 이득은 초보자에서 중급자로의 향상에서 비롯되었으며, 중급자에서 전문가로 갈수록 기울기는 완만해집니다. 그림 5의 배경이 되는 회귀 분석에 대한 자세한 내용은 부록을 참조하십시오.

그림 5: 전문 수준과 세션 결과. 이 그림은 초보자부터 전문가까지 5단계의 작업 전문 수준 점수에 따른 세션 결과를 보여줍니다. 왼쪽 그림은 모든 세션을 포함합니다. 중간 및 오른쪽 그림은 문제가 발생한 세션, 즉 실패 신호가 3보다 큰 세션으로 제한하며, 이러한 세션이 다양한 성공 및 실패 정의에 도달하는 비율을 보여줍니다. 각 점은 조정된 비율입니다. 우리는 동일한 작업 모드, 동일한 작업 가치 구간, 동일한 월, 동일한 작업 주제, 그리고 소프트웨어 관련 직업 여부와 같은 동일한 사용자 유형을 가진 세션만을 비교하여 다양한 전문 수준 간의 차이를 추정합니다. 관련 회귀 분석 세부 사항은 부록을 참조하십시오. 수염은 표본 평균의 신뢰 구간이며, 대부분 너무 작아 그림에서 보이지 않습니다. 이 그림들은 성공 결과 분류기에 의해 '명확한 목표 없음'으로 판정된 세션을 제외합니다.

도전에 직면한 세션에서도 유사한 기울기를 볼 수 있습니다. 실패 신호가 검증된 실패 증거를 기록하면, 우리는 해당 세션이 '문제에 직면했다'고 간주합니다. 여기에는 오류 발생, 테스트 실패, 동일한 작업 완료를 위한 여러 번의 시도, 또는 사용자의 좌절감 및 불만 표현이 포함될 수 있습니다. 문제에 직면한 세션에서 위의 모든 변수를 통제한 후, 검증된 성공 비율은 초보자 세션의 4%에서 전문가 세션의 15%로 증가했습니다(그림 5 참조). 더 관대한 성공 지표를 사용하면, 최소 부분 성공 비율이 초보 사용자의 경우 60%, 중급에서 전문가 사용자의 경우 80%에서 81%에 달하는 것을 발견했습니다.

우리는 또한 전문 수준과 다양한 실패 지표 간의 또 다른 역관계를 추적했습니다. 이 분석에서 실패로 판정된 세션은 부분 성공조차 달성하지 못한 세션이라는 점에 유의해야 합니다. 문제에 직면한 세션이 실패로 판정되고 코드 라인이 전혀 작성되지 않은 경우, 우리는 이를 포기된 것으로 간주합니다. 사용자가 초보자로 보이는 세션 중 19%가 결국 포기되었지만, 다른 사용자 그룹에서는 이 비율이 5%에서 7%였습니다. 다시 말해, 경험이 가장 적은 사용자는 목표를 달성하기 위해 노력하다 어려움에 직면했을 때 포기할 가능성이 더 높습니다. 전문성의 가치 중 일부는 에이전트를 올바른 방향으로 다시 안내할 수 있는 능력에 있는 것으로 보입니다.

직업보다 전문 수준이 덜 중요할 수 있다

소프트웨어 관련 직업 사용자의 전체 세션 검증 성공률은 약 30%이고, 기타 직업 사용자는 약 26%입니다. 코드를 생성하는 세션, 즉 최소 한 줄 이상의 코드가 추가되거나 수정된 세션에서는 이 수치가 각각 34%와 29%입니다(그림 6 참조). 더 관대한 성공 정의를 사용하면 소프트웨어 관련 직업과 기타 직업 간의 격차는 더욱 좁혀집니다. 코드를 생성하는 세션에서 최소 부분 성공을 달성한 비율은 두 사용자 그룹 모두 각각 89%와 88%입니다. 5% 포인트 차이는 크지 않으며, 두 그룹의 성공률이 모두 향상되고 있음에도 불구하고 7개월 동안 확대되거나 축소되지 않았습니다. 코드를 생성하는 세션에서 우리 데이터셋의 가장 큰 10개 직업군 각각은 소프트웨어 엔지니어와의 성공률 격차가 7% 포인트 이내였습니다. 관리 직업은 검증 성공률이 가장 높았으며, 소프트웨어 엔지니어링 직업보다 약간 높았습니다. 관리자의 더 높은 검증 성공률은 관리 기술이 에이전트를 지휘하는 작업으로 이전될 수 있음을 반영할 수 있습니다. 그러나 이는 부분적으로 우리의 측정 방식에서 비롯되었을 수도 있습니다. 검증은 부분적으로 세션 내 사용자의 명시적 확인에 의존하는데, 관리자는 원하는 결과를 얻었을 때 이를 표현하는 데 더 익숙할 수 있습니다.

그림 6: 추론된 직업별 코딩 세션 판정 성공률 및 검증 성공률. 이 그림은 최소 한 줄 이상의 코드가 추가되거나 수정된 세션에서, 사용자의 추론된 직업별로 엄격한 성공 정의 비율(판정 성공 및 검증 성공 포함)을 보여줍니다. 그림에는 가장 큰 10개 직업군이 표시됩니다. 각 그룹과 소프트웨어/수학 사용자, 즉 SOC 분류상 컴퓨터 및 수학 직업 사용자 간의 성공률 격차는 7% 포인트 이내입니다. 오차 막대는 다양한 계정을 기준으로 계산된 95% 신뢰 구간을 나타냅니다.

전망

본 보고서의 결과는 한 가지 그림을 그려내고 있습니다. 바로 AI 에이전트 프로그래밍이 특정 지식과 기술을 증폭시키는 동시에 다른 기술들을 대체하고 있다는 점입니다. 코드를 생성하는 세션에서 주요 직종별 성공률은 소프트웨어 관련 직종과 큰 차이를 보이지 않았습니다. 코딩 에이전트가 프로그래밍 배경 지식의 유무를 성공적인 프로그래밍 작업 수행에 있어 덜 중요하게 만들고 있는 것으로 보입니다.

동시에, 성공적인 세션은 해당 분야의 전문 지식을 보여줄 가능성이 더 높았습니다. 전문가로 평가된 세션의 경험적 성공률은 초보자 세션의 두 배 이상이었습니다. 세션이 문제에 직면했을 때 초보자가 포기하는 비율도 다른 사용자들보다 몇 배나 높았습니다. 협업 방식 자체가 이 그림을 더욱 분명하게 보여줍니다. 분야 전문가는 모든 지시를 통해 Claude가 더 많은 작업을 완수하도록 이끌 수 있습니다. 따라서 Claude를 성공으로 이끄는 능력은 코드 작성 능력보다 특정 분야에 대한 숙련도에서 비롯됩니다. 이러한 숙련도를 갖춘 사람이라면 어떤 분야에서든 이전에는 할 수 없었던 기술적 작업을 이제 해낼 수 있습니다. 반면 이러한 전문적 이해가 부족한 사람은 동일한 도구를 사용하더라도 얻는 성과가 훨씬 적을 것입니다. 또한 그 이점은 주로 숙달보다는 역량에서 비롯됩니다. 해당 분야에 대한 실용적인 이해만으로도 대부분의 이점을 얻을 수 있으며, 깊은 전문화는 그 위에 소량의 추가 이점만을 제공할 뿐입니다.

이러한 발견은 아직 초기 단계입니다. 대부분의 연구와 마찬가지로, 우리는 실제 결과를 측정할 수 없습니다. 예를 들어 세션에서 작성된 코드가 실제로 사용되었는지 폐기되었는지, 혹은 경제적 가치를 창출했는지 여부 등입니다. 또한 본 보고서에서 제외된 비대화형 사용은 전체 활동에서 상당 부분을 차지합니다. 이러한 사용을 측정할 수 있는 프레임워크를 개발하는 것이 향후 작업의 주요 과제 중 하나입니다. 그리고 세션에 대한 모든 분류는 모델이 세션 기록을 읽는 것에 의존합니다. 부록에서 우리는 분류기가 독립적인 원격 측정 데이터와 예상된 방향으로 일치하며, 대부분의 세션에서 강력한 참조 모델의 판단과 일치함을 보여줍니다. 그러나 대규모 시나리오에서 분류기를 검증하는 것은 여전히 어렵습니다. Claude Code 세션 자체도 너무 길고 복잡하여 사람이 주석을 달아 실제 기준으로 삼기 어렵기 때문에 난이도를 더합니다.

모델, 사용자, 그리고 이 둘 사이의 노동 분업이 계속 변화함에 따라 본 보고서의 그림도 지속적으로 업데이트될 것입니다. 우리는 이러한 지표들이 진행 중인 중대한 변화를 추적하는 데 도움이 되기를 바랍니다. 예를 들어, 만약 미래에 전문성 수준에 따른 수익이 감소하기 시작한다면, 이는 모델이 현재 사용자가 제공하는 핵심적인 판단을 제공하기 시작했음을 의미하며, 이러한 도구의 혜택이 분야 전문가에서 더 넓은 대중으로 확대되고 있음을 나타낼 것입니다. 소프트웨어 직종 외 사용자가 코딩 세션을 성공적으로 완료하는 비율이 계속 상승한다면, 이는 소프트웨어 생산이 단일 직종의 산물이 아니라 여러 분야의 일반적인 업무 일부가 되어가고 있음을 의미할 수 있습니다. 이러한 변화는 AI 에이전트 프로그래밍의 혜택을 누가, 얼마나 받을 수 있는지를 바꾸고, 노동 시장에서 가장 가치 있게 여겨지는 능력에 영향을 미칠 것입니다.