모델 밖은 모두 Harness: Deepseek 참전, 국내 AI 경쟁의 주 전장이 바뀐 이유는?

2026년 5월 중하순, Deepseek는 내부적으로 코드 지능형 에이전트(Agent) 제품을 목표로 하는 새로운 Harness 팀을 구성했으며, 이는 Anthropic의 Claude Code를 내부적으로 벤치마킹한 것입니다. 전 Jane Street 스타 퀀트 엔지니어인 추이톈이(Cui Tianyi)가 3월에 이 팀에 합류했고, 시니어 연구원인 천더리(Chen Deli)가 이를 공개적으로 확인하고 채용을 담당하고 있습니다. Deepseek의 채용 공고에는 "Model + Harness = Agent"라는 공식이 명시되어 있습니다. 기초 대형 모델의 성능이 점차 평준화되면서 단순히 매개변수 경쟁만 하던 시대는 저물고 있습니다. Deepseek가 직접 도구 체인 팀을 구성한 것은 중국 AI 경쟁의 주요 전장이 '대형 모델 훈련'에서 '도구 체인 구축 및 업무 현장 적용'으로 전환되고 있음을 의미합니다.

Deepseek가 직접 Harness를 구축하는 이유는 무엇일까요?

오랫동안 개발자들은 Deepseek가 더 강력한 오픈소스 기초 모델을 출시하기를 기대했습니다. 하지만 코딩 능력이 뛰어나다고 해서 개발자들이 이를 생산성 도구로 사용하는 것은 아닙니다. 작업 방식을 진정으로 바꾸는 것은 채팅창의 코드 답변이 아니라, 터미널에 접근하고, 프로젝트를 이해하며, 파일을 읽고 쓰고, 명령을 실행하고, 오류를 수정할 수 있는 엔지니어링 에이전트입니다. 공식적으로 나서기 전에 개발자 커뮤니티는 이미 Deepseek 모델을 기반으로 다양한 오픈소스 터미널 에이전트를 만들었습니다. 이 시점에 Deepseek가 Harness 팀을 구성한 것은 인터페이스 설계 권한과 훈련 데이터 폐쇄 루프를 장악하여 커뮤니티가 개척한 길을 공식 핵심 제품으로 흡수하려는 의도입니다.

이 전략적 의도를 이해하려면 먼저 Harness가 정확히 무엇인지 알아야 합니다. 비기술적 배경을 가진 독자에게 'Harness'라는 단어는 다소 생소할 수 있습니다. Deepseek의 공식에서 모델은 추론을 담당하고, Harness는 그 외의 모든 것을 담당합니다. Harness는 원래 공학 분야에서 '마구'나 '안전벨트'를 의미했지만, AI 분야로 확장되어 에이전트의 '런타임 인프라'를 가리킵니다.

더 쉽게 이해하자면, 대형 모델을 높은 지능을 가진 직장인의 '두뇌'와 '지능'에 비유할 수 있다면, Harness는 바로 그 직장인의 '직무 설명서, KPI 평가 기준, 업무용 방화벽 및 도구 상자'입니다. 이는 실행 전에 조립하는 '비계'나 빌딩 블록을 제공하는 '프레임워크'가 아니라 지속적으로 실행되는 시스템입니다. 실행 루프를 조정하고, 도구 호출을 분배하며, 컨텍스트를 관리하고, 안전 점검을 실행하며, 오류 복구와 상태 지속성을 담당합니다. 대형 모델 자체는 상태 비저장(stateless)이며 환경과 상호 작용할 수 없고, 텍스트 입력을 받아 텍스트를 출력할 뿐입니다. Harness는 이러한 결함을 보완하여 모델이 실제로 외부 세계와 상호 작용하고 구체적인 작업을 실행할 수 있게 합니다.

기초 모델 회사가 이 런타임을 반드시 직접 장악해야 하는 이유는 무엇일까요? 핵심은 에이전트 제품이 모델 능력의 출구일 뿐만 아니라 모델 능력의 훈련장이라는 점입니다. Deepseek의 채용 공고는 '모델과 Harness의 공동 진화 실현'을 강조합니다. 실제 복잡한 작업에서 모델은 환경 제한이나 도구 반환 이상으로 인한 다양한 실패에 직면합니다. Harness는 이러한 실패 궤적을 기록하여 모델 훈련에 피드백을 제공함으로써 플라이휠 효과를 창출할 수 있습니다. 만약 커뮤니티가 대신 구축하도록 방치한다면, 모델 제공업체는 가장 핵심적인 애플리케이션 계층 데이터 피드백을 잃고 단순한 컴퓨팅 파워 및 가중치 제공업체로 전락할 것입니다.

공학적 관점에서 Harness를 최적화하는 것이 단순히 프롬프트를 최적화하는 것보다 에이전트의 성패를 더 크게 좌우합니다. 기술 전문가 분석에 따르면, 에이전트 실행 시 도구 출력이 에이전트가 컨텍스트에서 실제로 보는 내용의 67.6%를 차지하는 반면, 시스템 프롬프트는 3.4%에 불과합니다. 이는 모델 '시야'의 대부분이 도구 호출 결과로 채워진다는 것을 의미합니다. Harness가 도구 출력 형식을 제대로 처리하지 못하거나 중복 정보를 효과적으로 압축하지 못하면 모델은 '컨텍스트 부패'에 빠져 후속 추론 품질이 급격히 저하됩니다.

더 치명적인 것은 복합 오류 문제입니다. 10단계로 구성되고 각 단계의 신뢰성이 99%인 에이전트 프로세스의 엔드 투 엔드 성공률은 약 90%이지만, 작업 복잡도가 50단계로 증가하면 성공률은 60%로 급락합니다. 실제 코드베이스 유지 관리나 기업 업무 자동화 시나리오에서는 수십 단계의 연속 작업이 일반적입니다. 이때 모델 자체의 추론 능력이 아무리 뛰어나도 확률적 누적 손실을 만회할 수 없습니다. Harness의 오류 처리 및 복구 메커니즘을 통해서만 단계 실패 시 재시도하거나 경로를 수정할 수 있습니다. 이것이 바로 Harness의 공학적 가치이자 Deepseek가 직접 나서야 하는 이유입니다.

텐센트는 커넥터로, 알리바바는 프론트엔드 침투로: 대기업 도구 체인의 차별화된 경로

Deepseek의 전환은 고립된 사례가 아닙니다. 업계 매체 보도에 따르면, 에이전트 역량 강화는 2026년 중국 기초 대형 모델의 중요한 발전 방향이 되었습니다. 기초 모델이 점차 '수도, 전기, 가스'와 같은 인프라로 변모하면서 경쟁의 주요 무대는 애플리케이션 계층으로 이동하고 있습니다. 중국의 다른 대기업들도 도구 체인을 통해 차별화된 포지셔닝을 모색하고 있지만, 그 경로는 각기 다르며 이는 각 회사의 생태적 자원과 목표 사용자층의 차이를 반영합니다.

텐센트는 2026년 6월 기업용 에이전트의 새로운 카드인 WorkBuddy 기업용 버전을 출시했습니다. 핵심 포지셔닝은 전 업무 현장을 아우르는 지능형 에이전트 데스크톱 워크스테이션으로, 개인 효율성 향상에서 조직 협업으로의 전환을 목표로 합니다. WorkBuddy 기업용 버전은 다중 에이전트 병렬 처리와 비즈니스 시스템 커넥터 접속을 지원하여 AI 업무의 통합 진입점을 선점하려고 합니다. 텐센트의 포지셔닝 논리는 방대한 기업 위챗(WeCom)과 텐센트 클라우드 생태계에 기반합니다. 대기업에게 AI 업무의痛点은 단일 도구의 극한 경험이 아니라 내부에 고립된 업무 시스템을 연결할 수 있는지 여부입니다. 텐센트는 커넥터 역할을 함으로써 에이전트가 기업 데이터와 프로세스를 직접 조정할 수 있게 하여 조직 수준의 협업과 복잡한 작업 전달에 중점을 둡니다. 이 경로의 장점은 진입 장벽이 높아 한번 기업의 핵심 비즈니스 프로세스에 접속되면 교체 비용이 막대하다는 점이며, 과제는 매우 뛰어난 기업 서비스 능력과 맞춤형 지원이 필요하다는 것입니다.

알리바바는 다른 길을 택하여 웹 측면에서 자동화 진입 장벽을 낮추는 데 주력했습니다. 알리바바는 순수 프론트엔드 브라우저 내 GUI 에이전트 프레임워크인 PageAgent를 오픈소스로 공개했습니다. 이 프레임워크는 백엔드 배포가 필요 없으며, 단 한 줄의 코드로 웹사이트에 AI 운영자 기능을 통합할 수 있습니다. 알리바바의 포지셔닝 논리는 웹 개발자를 지원하여 모든 웹페이지를 순식간에 AI 네이티브 애플리케이션으로 전환하는 데 있습니다. 수많은 전통적인 기업 시스템이 API 인터페이스를 제공할 수 없는 현실 속에서 프론트엔드 DOM 조작을 통한 자동화는 실용적인 저차원 공략 경로입니다. 이 경로의 장점은 가볍고 통합이 쉬워 방대한 롱테일 웹사이트를 빠르게 커버할 수 있다는 점이지만, 프론트엔드 DOM 구조의 빈번한 변경은 안정성 문제를 야기할 수 있어 Harness의 오류 복구 능력에 대한 요구 사항이 더욱 높아집니다.

비교해 보면, 각 회사는 더 이상 단순히 모델 성능 점수만 경쟁하지 않고 자체 생태적 강점에 따라 도구 체인을 구축하고 있습니다. 텐센트는 커넥터를 만들고, 알리바바는 프론트엔드 침투를 하며, Deepseek는 개발자에게 가장 필요한 코드 엔지니어링 현장부터切入합니다. 이러한 분화는 중국 AI 업계가 완벽한 범용 에이전트는 존재하지 않으며, 특정 시나리오에서 견고한 Harness 엔지니어링을 통해 다듬어진 수직적 솔루션만이 존재한다는 것을 인식했음을 보여줍니다. 기업 구매 관점에서 어떤 도구 체인을 선택할지는 본질적으로 어떤 자동화 경로를 선택할지의 문제입니다. 업무 생태계에 깊이 바인딩할 것인지, 기존 웹 시스템에 유연하게 임베딩할 것인지, 아니면 개발자의 엔지니어링 워크플로우를 지원할 것인지에 대한 선택입니다.

Viktor의 2000만 달러 ARR이 증명하는 것: 기업은 자율 실행에 기꺼이 비용을 지불한다

도구 체인의 성숙은 AI가 업무 분야에 참여하는 패러다임을 변화시키고 있습니다. 기존 Copilot의 논리는 '초안을 작성하고 인간이 완료하기를 기다리는' 방식으로, AI가 텍스트나 코드 일부를 생성하면 마지막 단계는 여전히 사람이 개입하여 수정하고 실행해야 합니다. 이 모델에서 AI는 단지 효율성 향상 도구일 뿐, 진정으로 노동력을 대체할 수 없습니다. 기업 직원들은 AI의 출력을 항상 주시하며 검증하고 실행에 옮겨야 하므로, 이는 실제로 인지적 부담을 증가시킵니다.

해외 시장에서는 이미 패러다임 전환의 명확한 신호가 나타나고 있습니다. 해외 트렌드의 참고 사례로, 폴란드 AI 업무 자동화 회사 Viktor는 Slack 내 AI 직원으로 포지셔닝하여 영업 팀 없이 연간 반복 수익(ARR) 2000만 달러를 달성하고 3만 개 기업에 서비스를 제공하며, 2026년 5월 7500만 달러의 시리즈 A 투자를 유치했습니다. Viktor의 모델은 새로운 유형의 AI 직원의 최종 형태를 대표합니다. 클라우드 컴퓨터를 보유하고, 장시간 지속적으로 작업하며, 방대한 컨텍스트를 확실히 파악하고, 결과를 직접 전달합니다.

Viktor는 Tier 3 AI Coworker로 포지셔닝되어 있으며, 이는 단순한 질의응답이 아니라 마케팅 감사, 광고 관리, 리드 리서치 등 여러 단계와 장시간 실행이 필요한 복잡한 작업을 처리한다는 의미입니다. 기업 측에서는 인간의 최종 확인 없이도 장시간 지속적으로 작업할 수 있는 이러한 AI에 대해 막대한 지불 의사를 보이고 있습니다. 이러한 비즈니스 데이터의 폭발적인 증가는 업무 자동화의 가치 기준점이 이미 '보조 생성'에서 '자율 실행'으로 이동했음을 증명합니다.

중국 기업들이 Harness와 에이전트 도구 체인을 배치하는 것은 바로 이러한 추세를 수용하기 위함입니다. Harness가 충분한 안전 가드레일, 상태 지속성 및 오류 복구 능력을 제공할 수 있을 때, AI는 인간이 항상 감시해야 하는 '인턴'에서 독립적으로 작업 결과를 전달할 수 있는 '아웃소싱 업체'로 변모할 수 있습니다. 기업 구매의 관심사도 모델 매개변수 크기에서 에이전트가 8시간 동안 충돌 없이 안정적으로 실행될 수 있는지, API 속도 제한과 웹 페이지 구조 변경을 자동으로 처리할 수 있는지로 옮겨갈 것입니다. 개발자에게 이는 AI 애플리케이션 구축의 초점이 '좋은 프롬프트 작성 방법'에서 '견고한 런타임 환경 설계 방법'으로 전환됨을 의미합니다.

토큰 폭증과 '두꺼운 프레임워크'의 공학적 장벽

도구 체인 경쟁으로 전환한 후에도 기업 구매자와 개발자가 실제 구현에서 직면하는 과제는 줄어들지 않고 오히려 공학적 측면에 더욱 집중되고 있습니다.

가장 먼저 직면하는 것은 토큰 폭증 문제입니다. 장시간 실행되는 에이전트는 '사고, 행동, 피드백' 루프에서 중복된 도구 출력으로 인해 컨텍스트가 급속히 팽창하기 쉽습니다. 개발자 커뮤니티는 이 난제를 광범위하게 논의하며, 이것이 추론 비용을 높일 뿐만 아니라 모델의 주의력을 분산시켜 작업 실패율을 급증시킨다고 봅니다. 예를 들어, 웹 데이터 스크래핑 작업을 실행할 때 Harness가 전체 웹 페이지의 HTML 소스 코드를 그대로 컨텍스트에 밀어 넣으면 모델은 곧 중복 정보 속에서 길을 잃고 원래 작업 목표를 잊어버립니다. 따라서 Harness의 컨텍스트 압축 및 메모리 관리 능력은 기업 구매 시 핵심 고려 지표가 됩니다. 우수한 Harness는 어떤 이력 정보를 폐기할 수 있고 어떤 도구 반환 결과를 요약해야 하는지 알아야 하며, 이는 모델 자체의 지능보다 심층적인 엔지니어링 아키텍처 능력을 시험합니다.

이는 또한 개발자들이 '래퍼(wrapper)'에 불과한 얇은 프레임워크에 대한 경계심을 불러일으킵니다. 대형 모델 제공업체가 출시한 Harness가 단순한 API 래퍼에 불과하여 기본적인 대화 창과 도구 호출 인터페이스만 제공한다면 실제 디버깅 가치가 부족할 것입니다. 프로덕션 환경에서의 취약성 때문에 Harness는 반드시 샌드박스 격리, 세분화된 권한 제어, 중단점 재개와 같은 '두꺼운 프레임워크' 특성을 갖추어야 합니다. 깊은 공학적 장벽을 갖춘 런타임만이 엔터프라이즈급 애플리케이션의 안정성 요구를 진정으로 해결할 수 있습니다. 예를 들어, 코드 실행 시나리오에서 Harness는 모델이 생성한 악성 코드가 호스트 시스템을 손상시키는 것을 방지하기 위해 안전한 샌드박스 환경을 제공해야 하며, 장시간 작업에서는 네트워크 변동으로 인해 전체 작업이 처음부터 다시 시작되는 것을 방지하기 위해 중단점 재개를 지원해야 합니다.

또한 지정학적 요인으로 인해 중국산 Harness에 막대한 시장 공백이 생겼습니다. Claude Code와 같은 해외 최고 수준의 엔지니어링 에이전트 제품은 중국 본토 및 중국 자본 기업에 대한 접근을 제한하고 있습니다. 중국 개발자들은 이러한 최고 수준의 도구를 직접 사용할 수 없는 상황에서 중국산 대체품을 찾을 수밖에 없습니다. Deepseek의 Harness 팀 구성은 기술 트렌드에 대한 대응일 뿐만 아니라 이 거대한 대체 수요에 대한 응답이기도 합니다.

기업 구매자와 개발자에게 Harness의 가치를 이해한다는 것은 AI 제품을 선택할 때 더 이상 화려한 대화 데모에 현혹되지 않고, 오류 복구 메커니즘이 무엇인지, 컨텍스트 관리 전략이 무엇인지, 그리고 기존 워크플로우에 진정으로 통합될 수 있는지를 묻는 것을 의미합니다. 도구 체인 경쟁 단계에서 기업은 단순히 모델 성능 점수를 비교하기보다는 공급업체의 엔지니어링 전달 능력과 생태적 호환성을 우선적으로 검토해야 하며, 개발자는 Harness 프레임워크의 개방성과 디버깅 도구 체인의 완성도에 주목하여 심층적인 제어가 가능한 런타임을 제공하는 플랫폼을 선택해야 합니다.