마리오 초우 & 피고 @IOSG 제공
소개
지난 12개월 동안 웹 브라우저와 자동화의 관계는 극적으로 변화했습니다. 거의 모든 주요 기술 회사가 자율 브라우저 에이전트를 개발하기 위해 노력하고 있습니다. 이러한 추세는 2024년 말부터 더욱 심화되었습니다. OpenAI는 1월에 에이전트 모드를 출시했고, Anthropic은 Claude 모델을 위한 "컴퓨터 사용" 기능을 출시했으며, Google DeepMind는 Project Mariner를, Opera는 에이전트 기반 브라우저 Neon을, Perplexity AI는 Comet 브라우저를 출시했습니다. 이러한 변화는 분명합니다. AI의 미래는 웹을 자율적으로 탐색할 수 있는 에이전트에 달려 있습니다.
이러한 추세는 단순히 브라우저에 더 스마트한 챗봇을 추가하는 것이 아니라, 기계가 디지털 환경과 상호 작용하는 방식에 근본적인 변화를 가져오는 것입니다. 브라우저 에이전트는 웹 페이지를 "보고" 링크를 클릭하고, 양식을 작성하고, 스크롤하고, 텍스트를 입력하는 등 마치 사람처럼 작업을 수행할 수 있는 AI 시스템입니다. 이 모델은 현재 수동 개입이 필요하거나 기존 스크립트로는 수행하기 너무 복잡한 작업을 자동화하여 엄청난 생산성과 경제적 가치를 창출할 것으로 기대됩니다.

▲ GIF 데모: AI 브라우저 에이전트의 실제 작동: 지침에 따라 대상 데이터 세트 페이지로 이동하고 자동으로 스크린샷을 찍고 필요한 데이터를 추출합니다.
AI 브라우저 전쟁에서 누가 승리할까?
거의 모든 주요 기술 기업(그리고 일부 스타트업)이 자체 브라우저 AI 에이전트를 개발하고 있습니다. 가장 대표적인 프로젝트는 다음과 같습니다.
OpenAI – 에이전트 모드
OpenAI의 에이전트 모드(이전 명칭: 오퍼레이터, 2025년 1월 출시)는 자체 브라우저를 갖춘 AI 에이전트입니다. 오퍼레이터는 웹 양식 작성, 식료품 주문, 회의 일정 예약 등 다양하고 반복적인 온라인 작업을 처리할 수 있으며, 이 모든 작업은 사람이 일반적으로 사용하는 표준 웹 인터페이스를 통해 완료됩니다.

AI 에이전트는 전문 비서처럼 회의 일정을 조정합니다. 즉, 일정을 확인하고, 가능한 시간대를 찾고, 이벤트를 만들고, 확인 메시지를 보내고, .ics 파일을 생성합니다.
Anthropic – Claude의 "컴퓨터 사용"
2024년 말, Anthropic은 Claude 3.5에 새로운 "컴퓨터 사용" 기능을 도입하여 컴퓨터와 브라우저를 사람처럼 조작할 수 있는 기능을 제공했습니다. Claude는 화면을 보고, 커서를 이동하고, 버튼을 클릭하고, 텍스트를 입력할 수 있습니다. 이는 동종 최초의 대규모 프록시 도구로, 개발자는 Claude가 웹사이트와 애플리케이션을 자동으로 탐색하도록 설정할 수 있습니다. Anthropic은 이 기능을 웹에서 다단계 워크플로를 자동화하는 것을 주 목적으로 하는 실험적 기능으로 포지셔닝하고 있습니다.

Perplexity – 혜성
AI 스타트업 퍼플렉시티(질의응답 엔진으로 유명)는 2025년 중반 크롬의 AI 기반 대안으로 코멧 브라우저를 출시했습니다. 코멧의 핵심은 주소창(옴니박스)에 내장된 대화형 AI 검색 엔진으로, 기존 검색 링크 대신 질문과 답변, 요약 정보를 즉시 제공합니다.

- 또한, Comet에는 웹사이트 전반의 일상적인 작업을 자동화하는 사이드바 상주 에이전트인 Comet Assistant가 포함되어 있습니다. 예를 들어, 열린 이메일 요약, 회의 일정 관리, 브라우저 탭 관리, 웹 탐색 및 크롤링 등의 작업을 대신 수행할 수 있습니다.

- Comet은 사이드바 인터페이스를 통해 에이전트에게 현재 웹 페이지 콘텐츠를 알려줌으로써, AI 어시스턴트와의 탐색을 원활하게 통합하는 것을 목표로 합니다.
브라우저 프록시의 실제 응용 프로그램 시나리오
앞서 주요 기술 기업(OpenAI, Anthropic, Perplexity 등)이 다양한 제품 형태를 통해 브라우저 에이전트에 기능을 내장하는 방식을 살펴보았습니다. 이러한 기능의 가치를 더 잘 이해하기 위해, 이러한 기능이 일상생활과 기업 워크플로우 모두에서 실제 상황에 어떻게 적용되는지 살펴보겠습니다.
일일 웹 자동화
#전자상거래 및 개인 쇼핑
매우 실용적인 시나리오 중 하나는 쇼핑 및 주문 업무를 상담원에게 위임하는 것입니다. 상담원은 정해진 목록에 따라 온라인 쇼핑 카트를 자동으로 채우고 주문하거나, 여러 소매업체에서 최저가를 검색하여 결제 과정을 대신 완료할 수 있습니다.

여행의 경우, AI에게 "다음 달 도쿄행 항공권을 800달러 이하로 예약하고 무료 Wi-Fi가 제공되는 호텔로 예약해 주세요."와 같은 작업을 요청할 수 있습니다. AI는 항공편 검색, 옵션 비교, 승객 정보 입력, 호텔 예약 완료 등 항공사 및 호텔 웹사이트를 통해 모든 과정을 처리합니다. 이러한 수준의 자동화는 기존 여행 봇을 훨씬 뛰어넘습니다. 단순히 추천을 제공하는 데 그치지 않고 구매를 직접 실행합니다.
#사무실 효율성 향상
상담원은 사람들이 브라우저에서 수행하는 여러 반복적인 비즈니스 작업을 자동화할 수 있습니다. 예를 들어, 이메일 정리 및 할 일 항목 추출, 여러 캘린더에서 예약 가능 여부 확인 및 회의 일정 자동 조정 등이 있습니다. Perplexity의 Comet 어시스턴트는 웹 인터페이스를 통해 받은 편지함의 내용을 요약하거나 일정을 추가할 수 있습니다. 사용자의 승인을 받으면 상담원은 SaaS 도구에 로그인하여 정기 보고서를 생성하고, 스프레드시트를 업데이트하고, 양식을 제출할 수도 있습니다. 여러 채용 웹사이트에 자동으로 로그인하여 채용 공고를 게시하는 HR 상담원이나 CRM 시스템의 리드 데이터를 업데이트하는 영업 상담원을 상상해 보세요. 이러한 일상적인 사소한 업무는 직원들의 많은 시간을 소모했을 것이지만, AI는 웹 양식과 페이지 작업을 자동화하여 이러한 업무를 처리할 수 있습니다.

단일 작업 외에도, 에이전트는 여러 네트워크 시스템에서 전체 워크플로를 조율할 수 있습니다. 각 단계는 고유한 웹 인터페이스에 대한 접근을 필요로 하는데, 바로 이 부분에서 브라우저 에이전트가 탁월한 역량을 발휘합니다. 에이전트는 문제 해결을 위해 다양한 대시보드에 로그인할 수 있으며, 신규 직원 온보딩(여러 SaaS 웹사이트에 계정 생성)과 같은 프로세스도 조율할 수 있습니다. 즉, 현재 여러 웹사이트 방문이 필요한 다단계 프로세스도 이제 에이전트가 직접 수행할 수 있습니다.
현재의 과제와 한계
엄청난 잠재력에도 불구하고 오늘날의 브라우저 프록시는 아직 완벽과는 거리가 멉니다. 현재 구현 방식은 몇 가지 오랜 기술적 및 인프라적 과제를 안고 있습니다.
아키텍처 불일치
현대 웹은 사람이 조작하는 브라우저를 위해 설계되었지만, 시간이 지남에 따라 자동화에 적극적으로 저항하도록 발전해 왔습니다. 데이터는 시각적 표현에 최적화된 HTML/CSS에 묻혀 있거나, 마우스오버, 스와이프와 같은 상호작용 제스처에 의해 제한되거나, 문서화되지 않은 API를 통해서만 접근 가능합니다.
게다가 스크래핑 방지 및 사기 방지 시스템은 인위적으로 추가적인 장벽을 구축했습니다. 이러한 도구는 IP 평판, 브라우저 지문, 자바스크립트 챌린지 응답, 그리고 행동 분석(예: 마우스 움직임 무작위성, 타이핑 리듬, 체류 시간)을 결합합니다. 역설적으로, AI 에이전트가 더 "완벽하고" 효율적으로 보일수록, 예를 들어 오류 없이 즉시 양식을 작성하는 것처럼 보일수록 악성 자동화로 식별되기가 더 쉽습니다. 이는 심각한 오류로 이어질 수 있습니다. 예를 들어, OpenAI 또는 Google 에이전트가 결제 전 모든 단계를 성공적으로 완료하더라도 CAPTCHA 또는 보조 보안 필터에 의해 차단될 수 있습니다.

인간에게 최적화된 인터페이스와 봇에게 친화적이지 않은 방어 계층이 결합되어 에이전트는 실패할 가능성이 매우 높고 성공률이 낮은 취약한 "인간-로봇 모방" 전략을 채택해야 합니다(완료된 거래의 3분의 1 미만만이 인간의 개입 없이 완료됨).
신뢰와 보안 문제
에이전트가 완전한 제어권을 확보하려면 로그인 정보, 쿠키, 2단계 인증 토큰, 심지어 결제 정보까지 민감한 정보에 접근해야 하는 경우가 많습니다. 이는 사용자와 기업 모두에게 당연한 우려를 불러일으킵니다.
- 프록시가 실수를 하거나 악성 웹사이트에 속으면 어떻게 되나요?
- 에이전트가 특정 서비스 약관에 동의하거나 특정 거래를 실행하는 경우, 누가 책임을 져야 합니까?
이러한 위험을 바탕으로 현재 시스템은 일반적으로 신중한 접근 방식을 채택합니다.
- Google의 Mariner는 신용카드 정보를 입력하거나 서비스 약관에 동의하는 대신, 해당 정보를 사용자에게 돌려줍니다.
- OpenAI의 운영자는 사용자에게 로그인이나 CAPTCHA 질문을 요청합니다.

Anthropic의 Claude 중심 에이전트는 보안 문제를 들어 로그인을 거부할 수도 있습니다.
결과적으로 AI와 인간 사이에 잦은 중단과 인계가 발생하여 원활한 자동화 경험이 저하됩니다.
이러한 장애물에도 불구하고 발전은 계속되고 있습니다. OpenAI, Google, Anthropic과 같은 기업들은 매 단계마다 실패로부터 교훈을 얻고 있습니다. 수요가 증가함에 따라 일종의 "공진화"가 일어날 가능성이 높습니다. 즉, 유리한 상황에서 웹사이트는 에이전트에게 더욱 친화적이 되고, 에이전트는 기존의 장벽을 뛰어넘어 인간 행동을 모방하는 능력을 지속적으로 향상시킬 것입니다.
방법과 기회
오늘날 브라우저 프록시는 두 가지 뚜렷한 현실에 직면해 있습니다. 하나는 스크래핑 방지 및 보안 조치가 만연한 웹2의 적대적인 환경이고, 다른 하나는 자동화가 권장되는 웹3의 개방적인 환경입니다. 이러한 차이점은 다양한 솔루션의 방향을 결정합니다.
다음 솔루션은 크게 두 가지 범주로 나눌 수 있습니다. 프록시가 Web2의 적대적인 환경을 우회하도록 돕는 솔루션과 Web3에 기본으로 제공되는 솔루션입니다.
브라우저 프록시가 심각한 문제에 직면하는 가운데, 이를 직접 해결하려는 새로운 프로젝트들이 등장하고 있습니다. 암호화폐와 탈중앙화 금융(DeFi) 생태계는 개방적이고 프로그래밍 가능하며 자동화에 덜 적대적이기 때문에 자연스러운 시험장이 되고 있습니다. 개방형 API, 스마트 컨트랙트, 그리고 온체인 투명성은 웹 2.0 환경에서 흔히 발생하는 여러 마찰 요소를 제거합니다.
오늘날의 핵심적인 한계 중 하나 이상을 해결하는 4가지 솔루션 범주가 있습니다.
온체인 작업을 위한 네이티브 프록시 브라우저
이러한 브라우저는 처음부터 자율 에이전트에 의해 구동되도록 설계되었으며 블록체인 프로토콜과 긴밀하게 통합되어 있습니다. Selenium, Playwright 또는 지갑 플러그인을 사용하여 온체인 작업을 자동화하는 기존 Chrome 브라우저와 달리, 네이티브 프록시 브라우저는 에이전트가 호출할 수 있는 API와 신뢰할 수 있는 실행 경로를 직접 제공합니다.
탈중앙화 금융에서 거래 유효성은 사용자의 "인간적 유사성"이 아닌 암호화 서명에 의존합니다. 따라서 온체인 환경에서 프록시는 웹 2.0 환경에서 흔히 사용되는 CAPTCHA, 사기 탐지 점수, 그리고 기기 지문 확인을 우회할 수 있습니다. 그러나 이러한 브라우저가 아마존과 같은 웹 2.0 웹사이트로 연결되는 경우, 이러한 방어 체계를 우회할 수 없으며, 이 경우에도 표준 봇 방지 조치가 여전히 적용됩니다.
프록시 브라우저의 장점은 모든 웹사이트에 마술처럼 접근할 수 있다는 것이 아니라, 다음과 같은 장점이 있다는 것입니다.
- 네이티브 블록체인 통합: 지갑 및 서명 지원이 내장되어 있어 더 이상 MetaMask 팝업을 살펴보거나 dApp 프런트엔드에서 DOM을 구문 분석할 필요가 없습니다.
- 자동화 우선 설계: 프로토콜 작업에 직접 매핑할 수 있는 안정적인 고급 지침을 제공합니다.
- 보안 모델: 정교한 권한 제어와 샌드박싱을 통해 자동화 프로세스 중에 개인 키의 보안을 보장합니다.
- 성능 최적화: 브라우저 렌더링이나 UI 지연 없이 여러 개의 온체인 호출을 병렬로 실행할 수 있는 기능입니다.
#사례 연구: 도넛

Donut은 블록체인 데이터와 운영을 일급 시민처럼 통합합니다. 사용자(또는 대리인)는 마우스를 올려 토큰의 실시간 위험 지표를 확인하거나 "/swap 100 USDC to SOL"과 같은 자연어 명령을 직접 입력할 수 있습니다. Donut은 Web2의 적대적인 마찰 지점을 우회하여 대리인이 DeFi에서 최대한 빠르게 운영할 수 있도록 지원하여 유동성, 차익거래, 시장 효율성을 향상시킵니다.
검증 가능하고 신뢰할 수 있는 프록시 실행
에이전트가 민감한 권한을 획득하도록 허용하는 것은 위험합니다. 신뢰 실행 환경(TEE)이나 영지식 증명(ZKP)과 같은 솔루션은 실행 전에 에이전트의 예상 동작을 암호학적으로 확인할 수 있으므로, 사용자와 상대방은 개인 키나 자격 증명을 노출하지 않고도 에이전트의 동작을 검증할 수 있습니다.
#사례 연구: Phala 네트워크
Phala는 TEE(예: Intel SGX)를 사용하여 실행 환경을 격리하고 보호하여 Phala 운영자나 공격자가 프록시 로직 및 데이터를 염탐하거나 변조하는 것을 방지합니다. TEE는 하드웨어 기반 "안전실"처럼 작동하여 기밀성(외부에서는 볼 수 없음)과 무결성(외부에서 수정할 수 없음)을 보장합니다.
브라우저 프록시의 경우, 이는 보안 환경을 벗어나지 않고도 로그인, 세션 토큰 보유, 결제 정보 처리를 수행할 수 있음을 의미합니다. 사용자의 기기, 운영 체제 또는 네트워크가 손상되더라도 이러한 민감한 데이터는 유출되지 않습니다. 이는 프록시 도입의 가장 큰 장애물 중 하나인 민감한 자격 증명 및 작업 관련 신뢰 문제를 직접적으로 완화합니다.
분산형 구조화 데이터 네트워크
최신 봇 탐지 시스템은 요청이 "너무 빠른지" 또는 "자동화되었는지" 확인할 뿐만 아니라 IP 평판, 브라우저 지문 분석, JavaScript 챌린지 응답, 그리고 행동 분석(예: 커서 이동, 타이핑 리듬, 세션 기록)까지 결합합니다. 데이터 센터 IP 또는 완전히 반복 가능한 브라우징 환경에서 발생하는 프록시를 쉽게 식별할 수 있습니다.
이 문제를 해결하기 위해 이러한 네트워크는 더 이상 인간에게 최적화된 웹페이지를 크롤링하지 않고, 기계가 읽을 수 있는 데이터를 직접 수집하여 제공하거나, 실제 인간의 브라우징 환경을 통해 트래픽을 프록시합니다. 이러한 접근 방식은 기존 크롤러의 파싱 및 크롤링 방지 취약점을 우회하여 프록시에 더욱 정확하고 안정적인 입력을 제공합니다.
이러한 실제 세션으로 트래픽을 프록시함으로써 배포 네트워크는 AI 에이전트가 즉시 차단을 트리거하지 않고도 사람처럼 웹 콘텐츠에 액세스할 수 있도록 합니다.
#사례
- Grass: 사용자들이 사용하지 않는 주거용 광대역을 공유하는 분산형 데이터/DePIN 네트워크로, 에이전트 친화적이고 지리적으로 다양한 사람들이 공개 웹 데이터 수집 및 모델 학습을 위한 액세스를 제공합니다.
- WootzApp: 암호화폐 결제를 지원하고 백엔드 프록시를 사용하며 영지식 신원을 제공하는 오픈소스 모바일 브라우저입니다. 소비자를 위해 AI/데이터 작업을 게임화합니다.
- 식스펜스: 전 세계의 참여자들이 탐색하여 AI 에이전트의 트래픽을 라우팅하는 분산형 브라우저 네트워크입니다.
하지만 이것이 완벽한 해결책은 아닙니다. 행동 감지(마우스/스크롤 추적), 계정 수준 제한(KYC, 계정 연령), 그리고 지문 일관성 검사는 여전히 차단을 유발할 수 있습니다. 따라서 분산 네트워크는 가장 효과적인 실행 전략을 결합해야 하는 기본적인 개인정보 보호 계층으로 보는 것이 가장 좋습니다.
프록시를 위한 웹 표준(미래 지향적)
현재 점점 더 많은 기술 커뮤니티와 조직에서 다음과 같은 문제를 탐구하고 있습니다. 미래의 인터넷 사용자가 인간일 뿐만 아니라 자동화된 에이전트이기도 하다면, 웹사이트는 어떻게 안전하고 규정을 준수하여 이들을 처리할 수 있을까요?
이로 인해 일부 새로운 표준과 메커니즘에 대한 논의가 촉발되었는데, 그 목표는 웹사이트에서 "신뢰할 수 있는 프록시의 접근을 허용합니다"라고 명시적으로 밝히고 상호작용을 완료할 수 있는 안전한 채널을 제공하는 것입니다. 오늘날처럼 기본적으로 프록시를 "로봇 공격"으로 간주하여 차단하는 것은 바람직하지 않습니다.
- "에이전트 허용" 태그: 검색 엔진이 추적하는 robots.txt와 마찬가지로, 웹페이지는 브라우저 에이전트에게 "접근이 안전합니다"라고 알리는 태그를 코드에 추가할 수 있습니다. 예를 들어, 에이전트를 통해 항공편을 예약하는 경우, 웹사이트는 CAPTCHA를 여러 개 표시하지 않고 직접 인증된 인터페이스를 제공합니다.
- 인증된 상담원을 위한 API 게이트웨이: 웹사이트는 "패스트 레인(Fast Lane)"처럼 인증된 상담원을 위한 전용 입구를 열 수 있습니다. 상담원은 사람의 클릭 및 입력을 시뮬레이션할 필요가 없으며, 더 안정적인 API 경로를 사용하여 주문, 결제 또는 데이터 쿼리를 완료합니다.
- W3C 논의: 월드 와이드 웹 컨소시엄(W3C)은 이미 "관리형 자동화"를 위한 표준화된 경로를 개발하고 있습니다. 이는 향후 보안과 책임성을 유지하면서 신뢰할 수 있는 프록시를 웹사이트에서 식별하고 허용할 수 있도록 하는 전 세계적으로 허용되는 규칙 집합을 갖게 될 수 있음을 의미합니다.
이러한 탐색은 아직 초기 단계이지만, 구현되면 인간, 에이전트, 그리고 웹사이트 간의 관계를 크게 개선할 수 있습니다. 상상해 보세요. 에이전트들이 더 이상 위험 관리를 "속이기" 위해 인간의 마우스 움직임을 필사적으로 흉내 낼 필요가 없고, "공식적으로 승인된" 채널을 통해 공개적으로 작업을 완료할 수 있게 되는 것입니다.
크립토 네이티브 인프라가 이러한 방향으로 주도권을 잡을 가능성이 높습니다. 온체인 애플리케이션은 본질적으로 개방형 API와 스마트 계약에 의존하기 때문에 자동화에 이상적이기 때문입니다. 반면, 기존 웹 2.0 플랫폼, 특히 광고 또는 사기 방지 시스템에 의존하는 플랫폼은 여전히 신중하고 방어적인 태도를 유지할 것으로 예상됩니다. 그러나 사용자와 기업이 자동화로 인한 효율성 향상을 점차 수용함에 따라, 이러한 표준화 노력은 인터넷 전체를 에이전트 중심 아키텍처로 이끄는 핵심 촉매제가 될 것입니다.
결론적으로
브라우저 에이전트는 단순한 대화형 도구에서 복잡한 온라인 워크플로를 처리할 수 있는 자율 시스템으로 진화하고 있습니다. 이러한 변화는 사용자가 인터넷과 상호작용하는 핵심 인터페이스에 자동화를 직접 내장하는 더 광범위한 추세를 반영합니다. 생산성 향상의 잠재력은 막대하지만, 고착된 봇 방지 메커니즘을 극복하고 안전, 신뢰, 그리고 책임감 있는 사용을 보장하는 등 해결해야 할 과제도 그만큼 중요합니다.
단기적으로는 에이전트 추론 기능 향상, 속도 향상, 기존 서비스와의 긴밀한 통합, 그리고 분산 네트워크의 발전으로 안정성이 점진적으로 향상될 것으로 예상됩니다. 장기적으로는 자동화가 서비스 제공자와 사용자 모두에게 도움이 되는 시나리오에서 "에이전트 친화적" 표준이 점진적으로 구현되는 것을 볼 수 있을 것입니다. 그러나 이러한 전환은 균등하지 않을 것입니다. DeFi와 같은 자동화 친화적 환경에서는 도입 속도가 빠른 반면, 사용자 상호작용 및 제어에 크게 의존하는 Web2 플랫폼에서는 수용 속도가 더 느릴 것입니다.
앞으로 기술 기업 간의 경쟁은 상담원이 현실 세계의 제약 조건을 얼마나 잘 헤쳐나가는지, 중요한 워크플로에 얼마나 안전하게 통합될 수 있는지, 그리고 다양한 온라인 환경에서 얼마나 안정적으로 결과를 제공할 수 있는지를 중심으로 점점 더 치열해질 것입니다. 이러한 경쟁이 궁극적으로 "브라우저 전쟁"의 판도를 바꿀지는 단순한 기술력이 아니라, 신뢰를 구축하고, 인센티브를 조정하고, 일상적인 사용에서 실질적인 가치를 입증할 수 있는지에 달려 있습니다.
