왜 AI 에이전트 시대가 3차 브라우저 전쟁을 불러올 것이라고 말할까요?

제공: Gate Ventures

요약

세 번째 브라우저 전쟁이 조용히 전개되고 있습니다. 1990년대 넷스케이프와 마이크로소프트 인터넷 익스플로러부터 오픈소스 파이어폭스와 구글 크롬에 이르기까지, 브라우저 전쟁은 항상 플랫폼 지배와 기술 패러다임의 변화를 집중적으로 반영해 왔습니다. 크롬은 빠른 업데이트 속도와 생태계 연계성을 바탕으로 지배적인 지위를 차지한 반면, 구글은 검색과 브라우저라는 "양자점" 구조를 통해 정보 유입의 폐쇄적인 고리를 형성했습니다.

하지만 오늘날 이러한 패턴이 흔들리고 있습니다. 대규모 언어 모델(LLM)의 등장으로 검색 결과 페이지에서 "클릭 한 번 없이" 작업을 완료하는 사용자가 점점 늘어나고 있으며, 기존 웹페이지 클릭 수는 감소하고 있습니다. 동시에, 애플이 사파리의 기본 검색 엔진을 대체할 것이라는 소문이 알파벳(구글 모회사)의 수익 기반을 더욱 위협하고 있으며, 시장은 "검색의 정통성"에 대한 불안감을 드러내기 시작했습니다.

브라우저 자체의 역할 변화도 예상됩니다. 브라우저는 단순히 웹 페이지를 표시하는 도구가 아니라 데이터 입력, 사용자 행동, 개인정보 보호 등 다양한 기능을 통합하는 도구입니다. AI Agent는 강력하지만, 복잡한 페이지 상호작용을 완료하고, 로컬 ID 데이터를 호출하고, 웹 페이지 요소를 제어하기 위해서는 여전히 브라우저의 신뢰 경계와 기능 샌드박스에 의존해야 합니다. 브라우저는 사용자 인터페이스에서 에이전트의 시스템 호출 플랫폼으로 변화하고 있습니다.

이 글에서는 브라우저가 여전히 필요한지 살펴봅니다. 동시에, 현재 브라우저 시장을 뒤흔들 것은 또 다른 "더 나은 크롬"이 아니라, 새로운 상호작용 구조, 즉 정보 표시가 아닌 작업 호출이라고 생각합니다. 미래에는 브라우저가 AI 에이전트를 위해 설계될 것입니다. 읽기뿐만 아니라 쓰기와 실행까지 가능하게 될 것입니다. Browser Use와 같은 프로젝트는 페이지 구조를 의미화하고, 시각적 인터페이스를 LLM에서 호출 가능한 구조화된 텍스트로 변환하며, 페이지와 명령어 간의 매핑을 구현하고, 상호작용 비용을 크게 절감하는 것을 목표로 합니다.

시장의 주요 프로젝트들이 시장 상황을 시험하기 시작했습니다. Perplexity는 AI를 활용하여 기존 검색 결과를 대체하는 네이티브 브라우저 Comet을 개발했습니다. Brave는 LLM을 사용하여 검색 및 차단 기능을 강화하고, 개인정보 보호와 로컬 추론을 결합했습니다. Donut과 같은 암호화폐 네이티브 프로젝트는 AI가 온체인 자산과 상호 작용할 수 있는 새로운 진입점을 목표로 하고 있습니다. 이러한 프로젝트들의 공통적인 특징은 브라우저의 출력 계층을 미화하기보다는 입력 부분을 재구성하는 데 중점을 둔다는 것입니다.

기업가들에게 기회는 입력, 구조, 그리고 에이전트 사이의 삼각 관계에 숨겨져 있습니다. 미래의 에이전트들이 세상에 전화를 걸 수 있는 인터페이스로서, 브라우저는 구조화되고 호출 가능하며 신뢰할 수 있는 "역량 블록"을 제공하는 사람이라면 누구든 차세대 플랫폼의 일부가 될 수 있음을 의미합니다. SEO부터 AEO(에이전트 엔진 최적화), 페이지 트래픽부터 작업 체인 호출까지, 제품 형태와 디자인 씽킹이 재구성되고 있습니다. 세 번째 브라우저 전쟁은 "디스플레이"가 아닌 "입력"에서 시작되었습니다. 승자는 더 이상 사용자의 시선을 사로잡는 사람이 아니라, 에이전트의 신뢰를 얻고 통화 진입점을 확보하는 사람으로 결정됩니다.

브라우저 개발의 간략한 역사

1990년대 초, 인터넷이 아직 일상생활에 자리 잡기 전이던 시절, 넷스케이프 내비게이터가 탄생했습니다. 마치 새로운 대륙을 연 범선처럼, 수백만 명의 사용자에게 디지털 세계로 향하는 문을 열어준 것입니다. 이 브라우저가 최초의 제품은 아니었지만, 대중에게 진정으로 다가가 인터넷 경험을 형성한 최초의 제품이었습니다. 당시 사람들은 그래픽 인터페이스를 통해 마치 온 세상이 눈앞에 펼쳐진 듯, 그토록 쉽게 웹을 탐색할 수 있었습니다.

하지만 그 영광은 오래가지 못합니다. 마이크로소프트는 곧 브라우저의 중요성을 깨닫고 인터넷 익스플로러를 윈도우 운영 체제에 강제로 포함시켜 기본 브라우저로 만들었습니다. 이 전략은 "플랫폼 킬러"라고 불릴 수 있으며, 넷스케이프의 시장 지배력을 직접적으로 약화시켰습니다. 많은 사용자가 IE를 적극적으로 선택한 것은 아니었지만, 시스템이 기본적으로 IE를 허용했기 때문에 받아들였습니다. 윈도우의 배포 기능 덕분에 IE는 빠르게 업계 선두 주자가 되었고, 넷스케이프는 쇠퇴의 길로 들어섰습니다.

어려운 상황 속에서 넷스케이프 엔지니어들은 급진적이고 이상적인 길을 선택했습니다. 브라우저 소스 코드를 공개하고 오픈 소스 커뮤니티에 도움을 요청한 것입니다. 이 결정은 기술계에서 "마케도니아식 양보"로 여겨졌으며, 구시대의 종말과 새로운 세력의 부상을 예고했습니다. 이 코드는 이후 모질라 브라우저 프로젝트의 기반이 되었는데, 원래 이름은 피닉스(불사조의 열반을 의미)였지만 상표 문제로 여러 차례 이름을 바꾸다가 결국 파이어폭스로 명명되었습니다.

파이어폭스는 단순한 넷스케이프의 복제품이 아닙니다. 사용자 경험, 플러그인 생태계, 보안 등 여러 측면에서 많은 혁신을 이루어냈습니다. 파이어폭스의 탄생은 오픈 소스 정신의 승리를 의미하며 업계 전체에 새로운 활력을 불어넣습니다. 어떤 이들은 오스만 제국이 비잔틴 제국의 여운을 물려받았듯이 파이어폭스를 넷스케이프의 "정신적 계승자"라고 부릅니다. 이러한 비유는 과장된 표현이지만, 매우 의미심장합니다.

하지만 파이어폭스가 공식 출시되기 몇 년 전, 마이크로소프트는 이미 IE를 여섯 가지 버전으로 출시했습니다. 파이어폭스는 시간적 이점과 시스템 번들링 전략에 의존하여 처음부터 따라잡을 수 있는 위치에 있었습니다. 이는 이 경쟁이 동등한 출발점을 가진 공정한 경쟁이 아니라는 것을 의미했습니다.

동시에 또 다른 초창기 브라우저가 조용히 등장했습니다. 1994년 노르웨이에서 출시된 오페라 브라우저는 처음에는 실험적인 프로젝트였습니다. 하지만 2003년 7.0 버전부터 자체 프레스토 엔진을 도입하고 CSS, 적응형 레이아웃, 음성 제어, 유니코드 인코딩과 같은 최첨단 기술을 최초로 지원했습니다. 사용자 수는 제한적이었지만, 기술 면에서는 항상 업계를 선도하며 "매니아들의 인기 브라우저"로 자리매김했습니다.

같은 해 애플은 사파리 브라우저를 출시했습니다. 이는 중요한 전환점이었습니다. 당시 마이크로소프트는 경쟁 업체의 모습을 유지하고 반독점 조사를 피하기 위해 파산 직전에 있던 애플에 1억 5천만 달러를 투자했습니다. 사파리의 기본 검색 엔진은 출시 이후 구글이었지만, 마이크로소프트와의 이러한 역사적인 얽힘은 인터넷 거대 기업 간의 복잡하고 섬세한 관계를 상징합니다. 협력과 경쟁은 항상 함께합니다.

2007년 윈도우 비스타와 함께 IE7이 출시되었지만, 시장 반응은 미미했습니다. 반면, 빠른 업데이트 속도, 더욱 편리한 확장 기능, 그리고 개발자에게 자연스럽게 어필하는 파이어폭스는 꾸준히 시장 점유율을 늘려 약 20%까지 성장했습니다. IE의 지배력은 점차 약해지고 있으며, 시장의 흐름도 바뀌고 있습니다.

구글은 다른 접근 방식을 가지고 있습니다. 2001년부터 자체 브라우저 개발을 계획해 왔지만, CEO 에릭 슈미트의 승인을 받는 데 6년이 걸렸습니다. 크롬은 2008년 크로미엄 오픈소스 프로젝트와 사파리에서 사용하는 웹킷 엔진을 기반으로 출시되었습니다. "부풀려진" 브라우저라는 별명이 붙었지만, 구글의 광고 및 브랜딩 분야에 대한 깊이 있는 전문 지식 덕분에 빠르게 주목을 받았습니다.

크롬의 핵심 무기는 기능이 아니라, 6주마다 한 번씩 제공되는 잦은 버전 업데이트와 모든 플랫폼에서 통합된 사용자 경험입니다. 2011년 11월, 크롬은 처음으로 파이어폭스를 추월하여 시장 점유율 27%를 달성했습니다. 6개월 후에는 IE를 추월하며 도전자에서 지배적인 브라우저로의 완전한 탈바꿈을 이루었습니다.

동시에 중국 모바일 인터넷 또한 자체적인 생태계를 형성하고 있습니다. 알리바바의 UC 브라우저는 2010년대 초, 특히 인도, 인도네시아, 중국 등 신흥 시장에서 빠르게 인기를 얻었습니다. 가벼운 디자인, 데이터 압축, 트래픽 절감 기능으로 저사양 기기 사용자들의 호응을 얻었습니다. 2015년에는 전 세계 모바일 브라우저 시장 점유율이 17%를 돌파했고, 인도에서는 한때 46%까지 치솟았습니다. 하지만 이러한 성공은 오래가지 못했습니다. 인도 정부가 중국 애플리케이션에 대한 보안 검토를 강화하면서 UC 브라우저는 주요 시장에서 철수해야 했고, 점차 과거의 영광을 잃어갔습니다.

2020년대에 들어서면서 크롬의 지배력은 약 65%의 세계 시장 점유율로 확립되었습니다. 구글 검색 엔진과 크롬 브라우저가 알파벳(Alphabet)에 속해 있지만, 시장 관점에서는 두 개의 독립적인 패권 체제라는 점에 주목할 필요가 있습니다. 전자는 전 세계 검색 포털의 약 90%를 장악하고 있는 반면, 후자는 대부분의 사용자가 인터넷에 접속하는 "첫 번째 창"을 장악하고 있습니다.

이러한 이중 독점 구조를 유지하기 위해 구글은 막대한 투자를 해왔습니다. 2022년 알파벳은 사파리에서 구글을 기본 검색 엔진으로 유지하는 데만 약 200억 달러를 애플에 지불했습니다. 일부 분석가들은 이 지출이 사파리 트래픽에서 발생하는 구글 검색 광고 수익의 36%에 해당한다고 지적했습니다. 다시 말해, 구글은 자사의 해자를 확보하기 위해 "보호 수수료"를 지불하고 있는 것입니다.

하지만 풍향이 다시 바뀌었습니다. 대규모 언어 모델(LLM)의 부상으로 기존 검색이 영향을 받기 시작했습니다. 2024년 구글의 검색 시장 점유율은 93%에서 89%로 하락했습니다. 여전히 압도적인 우위를 점하고 있지만, 균열이 나타나기 시작했습니다. 더욱 충격적인 것은 애플이 자체 AI 검색 엔진을 출시할 것이라는 소문입니다. 사파리의 기본 검색 엔진이 자사 진영으로 전환될 경우, 생태계가 재편될 뿐만 아니라 알파벳의 수익 기반도 흔들릴 수 있습니다. 시장은 빠르게 반응했고, 알파벳의 주가는 170달러에서 140달러로 하락했습니다. 이는 투자자들의 공황뿐 아니라 검색 시대의 미래 방향에 대한 깊은 불안감을 반영한 것입니다.

네비게이터에서 크롬까지, 오픈소스 이상에서 광고 상용화까지, 경량 브라우저에서 AI 검색 도우미까지, 브라우저 전쟁은 항상 기술, 플랫폼, 콘텐츠, 그리고 제어를 둘러싼 전쟁이었습니다. 전장은 끊임없이 변화하지만, 본질은 결코 변하지 않습니다. 입구를 장악하는 자가 미래를 결정합니다.

LLM과 AI 시대에 검색 엔진에 대한 사람들의 새로운 수요에 힘입어 VC들의 관점에서 볼 때, 세 번째 브라우저 전쟁이 점차 전개되고 있습니다. 다음은 몇몇 유명 AI 브라우저 프로젝트의 자금 조달 현황입니다.

현대 브라우저의 오래된 아키텍처

브라우저의 아키텍처와 관련하여, 고전적인 전통적 아키텍처는 아래 그림과 같습니다.

클라이언트 측 항목

쿼리는 HTTPS를 통해 가장 가까운 Google 프런트엔드로 전송되며, TLS 복호화, QoS 샘플링, 지리적 라우팅이 완료됩니다. 비정상 트래픽(DDoS, 자동 크롤링)이 감지되면 이 계층에서 트래픽을 제한하거나 차단할 수 있습니다.

쿼리 이해

프런트엔드는 사용자가 입력한 단어의 의미를 이해해야 하는데, 이는 세 단계로 구성됩니다. 신경망 철자 교정은 "recpie"를 "recipe"로 교정하고, 동의어 확장은 "how to fix bike"를 "repair bicycle"로 확장합니다. 그리고 의도 분석은 쿼리가 정보, 탐색 또는 거래 의도인지 판별하고 수직 요청을 할당합니다.

후보자 리콜

Google에서 사용하는 쿼리 기술은 역색인(inverted index)입니다. 순방향 색인에서는 ID를 통해 파일을 색인할 수 있습니다. 하지만 사용자는 수천억 개의 파일에서 원하는 콘텐츠의 개수를 알 수 없기 때문에, 매우 전통적인 역색인을 사용하여 콘텐츠를 통해 해당 키워드를 가진 파일을 검색합니다. 다음으로, Google은 벡터 색인을 사용하여 의미 검색, 즉 쿼리와 유사한 의미를 가진 콘텐츠를 찾습니다. 텍스트, 이미지 및 기타 콘텐츠를 고차원 벡터(임베딩)로 변환하고 이러한 벡터 간의 유사성을 기반으로 검색합니다. 예를 들어, 사용자가 "피자 반죽 만드는 법"을 검색하더라도 검색 엔진은 두 단어가 의미적으로 유사하기 때문에 "피자 반죽 만드는 가이드"와 관련된 결과를 반환할 수 있습니다. 역색인과 벡터 색인을 거친 후, 약 10만 개의 웹 페이지가 초기에 걸러집니다.

다단계 정렬

이 시스템은 일반적으로 BM25, TF-IDF, 페이지 품질 점수와 같은 수천 개의 경량 특징을 사용하여 수십만 개에서 약 1,000개 페이지의 후보 페이지를 필터링하여 예비 후보 세트를 구성합니다. 이러한 시스템을 통칭하여 추천 엔진이라고 합니다. 사용자 행동, 페이지 속성, 쿼리 의도, 상황 신호 등 여러 개체에서 생성된 방대한 특징에 의존합니다. 예를 들어, Google은 사용자 기록, 다른 사용자의 행동 피드백, 페이지 의미, 쿼리 의미 등과 같은 정보를 통합하는 동시에 시간(시간대, 특정 요일)과 같은 상황적 요소와 실시간 뉴스와 같은 외부 이벤트도 고려합니다.

마스터 정렬을 위한 딥러닝

초기 검색 단계에서 Google은 RankBrain 및 Neural Matching과 같은 기술을 사용하여 쿼리의 의미를 이해하고 수많은 문서에서 관련성이 높은 예비 결과를 필터링합니다. RankBrain은 Google이 2015년에 도입한 머신러닝 시스템으로, 특히 처음 등장하는 사용자 쿼리의 의미를 더 잘 이해하도록 설계되었습니다. RankBrain은 쿼리와 문서를 벡터 표현으로 변환하고 유사도를 계산하여 가장 관련성 높은 결과를 찾습니다. 예를 들어, "피자 반죽 만드는 법"이라는 쿼리의 경우, 문서에 정확히 일치하는 키워드가 없더라도 RankBrain은 "피자 기본" 또는 "반죽 만들기"와 관련된 콘텐츠를 식별할 수 있습니다.

신경망 매칭은 구글이 2018년에 출시한 또 다른 기술로, 쿼리와 문서 간의 의미적 관계를 더욱 깊이 이해하는 것을 목표로 합니다. 신경망 모델을 사용하여 단어 간의 모호한 관계를 파악하여 구글이 쿼리와 웹페이지 콘텐츠를 더욱 정확하게 매칭할 수 있도록 지원합니다. 예를 들어, "내 노트북 팬 소리가 왜 이렇게 큰가요?"라는 쿼리의 경우, 신경망 매칭은 사용자가 과열, 먼지 쌓임, 높은 CPU 사용량과 같은 문제 해결 정보를 찾고 있다는 것을 이해할 수 있습니다. 이러한 단어들이 쿼리에 직접 등장하지 않더라도 마찬가지입니다.

딥 리랭킹: BERT 모델 적용

Google은 관련 문서를 초기에 선별한 후, BERT(Bidirectional Encoder Representations from Transformers) 모델을 사용하여 이러한 문서를 더욱 정교하게 분류하여 가장 관련성 높은 결과가 먼저 순위에 오도록 합니다. BERT는 Transformer 기반의 사전 학습된 언어 모델로, 문장 내 단어 간의 문맥적 관계를 이해할 수 있습니다. 검색에서는 BERT를 사용하여 처음 검색된 문서의 순위를 재조정합니다. BERT는 쿼리와 문서를 함께 인코딩하고 두 문서 간의 관련성 점수를 계산하여 문서의 순위를 재조정합니다. 예를 들어, "연석 없는 경사로에 주차"라는 쿼리의 경우, BERT는 "연석 없음"의 의미를 이해하고, 연석이 있는 상황으로 오해하는 대신 운전자에게 연석 쪽으로 핸들을 돌릴 것을 권장하는 페이지를 반환합니다. SEO 엔지니어에게는 Google 순위 및 머신러닝의 추천 알고리즘을 정확하게 학습하여 웹페이지의 콘텐츠를 특정 방식으로 최적화하고 더 높은 순위에 표시되도록 하는 것이 중요합니다.

위는 구글 검색 엔진의 일반적인 워크플로우입니다. 하지만 AI와 빅데이터가 폭발적으로 증가하는 현대 사회에서 사용자들은 브라우저 상호작용에 대한 새로운 요구를 갖게 되었습니다.

AI가 브라우저를 재편할 이유

우선, 브라우저 폼이 왜 아직 존재하는지 명확히 해야 합니다. 인공지능 에이전트와 브라우저 외에 다른 옵션인 세 번째 폼이 있을까요?

우리는 존재가 대체 불가능하다고 믿습니다. 인공지능이 브라우저를 사용할 수는 있지만 완전히 대체할 수는 없는 이유는 무엇일까요? 브라우저는 보편적인 플랫폼이기 때문입니다. 단순히 데이터를 읽는 진입점이 아니라 입력하는 진입점이기도 합니다. 이 세상은 단순히 정보를 입력하는 것뿐 아니라 데이터를 생성하고 웹사이트와 상호작용해야 하므로, 개인화된 사용자 정보를 통합하는 브라우저는 여전히 널리 존재할 것입니다.

우리는 이 점을 잘 알고 있습니다. 브라우저는 데이터를 읽는 것뿐만 아니라 사용자가 데이터와 상호작용해야 하는 경우가 잦은 보편적인 진입점입니다. 브라우저 자체는 사용자 지문을 저장하기에 매우 유용한 장소입니다. 더 복잡한 사용자 행동과 자동화된 행동은 브라우저를 통해 수행되어야 합니다. 브라우저는 모든 사용자 행동 지문, 패스 및 기타 개인 정보를 저장하고 자동화 프로세스 중에 신뢰할 수 없는 호출을 구현할 수 있습니다. 데이터와 상호작용하는 동작은 다음과 같이 발전할 수 있습니다.

사용자 → AI 에이전트 호출 → 브라우저.

다시 말해, 대체될 수 있는 부분은 세상의 진화적 추세, 즉 더욱 지능적이고, 더욱 개인화되고, 더욱 자동화되는 부분에 부합하는 부분뿐입니다. 물론 이 부분은 AI Agent가 처리할 수 있지만, AI Agent 자체는 데이터 보안 및 편의성 측면에서 여러 가지 어려움에 직면해 있기 때문에 사용자 맞춤형 콘텐츠를 제공하기에 결코 적합한 플랫폼이 아닙니다. 구체적으로는 다음과 같습니다.

개인화된 콘텐츠가 저장되는 곳은 브라우저입니다.

대부분의 대형 모델은 클라우드에 호스팅되고, 세션 컨텍스트는 서버에 저장되므로 로컬 비밀번호, 지갑, 쿠키와 같은 민감한 데이터를 직접 호출하기 어렵습니다.
모든 탐색 및 결제 데이터를 제3자 모델로 전송하려면 사용자의 재승인이 필요합니다. EU DMA와 미국 주 개인정보 보호법은 모두 데이터 아웃바운드 전송을 최소화하도록 요구합니다.
2단계 인증 코드를 자동으로 채우거나, 카메라를 호출하거나, WebGPU 추론을 위해 GPU를 사용하는 작업은 모두 브라우저 샌드박스 내에서 수행되어야 합니다.
탭, 쿠키, IndexedDB, 서비스 워커 캐시, Passkey 자격 증명, 확장 데이터 등 데이터 컨텍스트는 브라우저에 따라 크게 달라지며, 이러한 모든 요소는 브라우저에 저장됩니다.

상호작용 형태의 심오한 변화

서두의 주제로 돌아가서, 브라우저 사용 행동은 크게 세 가지 형태로 나눌 수 있습니다. 데이터 읽기, 데이터 입력, 그리고 데이터와의 상호작용입니다. 인공지능 빅 모델(LLM)은 데이터 읽기의 효율성과 방식을 근본적으로 변화시켰습니다. 과거에는 키워드 기반 웹 페이지 검색 방식이 매우 구식이고 비효율적으로 여겨졌습니다.

사용자 검색 행동의 진화를 분석한 연구는 많이 있었습니다. 요약된 답변을 얻을지, 웹 페이지를 클릭할지에 대한 사용자 검색 행동 말입니다.

사용자 행동 패턴 측면에서, 2024년 연구에 따르면 미국에서 구글 검색 1,000건 중 단 374건만이 열린 웹페이지를 클릭했습니다. 즉, 거의 63%가 "제로 클릭" 행동이었습니다. 사용자는 날씨, 환율, 지식 카드와 같은 정보를 검색 결과 페이지에서 바로 얻는 데 익숙합니다.

사용자 심리학 측면에서, 2023년 설문조사에 따르면 응답자의 44%가 일반 자연 검색 결과가 추천 스니펫보다 더 신뢰할 만하다고 생각하는 것으로 나타났습니다. 학술 연구에 따르면 논란이 있거나 확인되지 않은 주제의 경우, 사용자는 여러 소스 링크가 있는 검색 결과 페이지를 선호합니다.

즉, AI 요약을 크게 신뢰하지 않는 사용자도 있지만, 사용자 행동의 상당 부분이 이미 "제로 클릭"으로 전환되었습니다. 따라서 AI 브라우저는 특히 데이터 판독 부분에서 적절한 상호작용 방식을 모색해야 합니다. 현재 대규모 모델의 "환각 문제"가 완전히 해결되지 않았고, 많은 사용자가 자동 생성된 콘텐츠 요약을 완전히 신뢰하는 데 어려움을 겪고 있기 때문입니다. 이러한 측면에서 대규모 모델이 브라우저에 내장되어 있다면, 브라우저에 큰 변화를 줄 필요는 없으며, 모델의 정확성과 제어 가능성을 점진적으로 개선하기만 하면 됩니다. 이러한 개선 또한 지속적으로 추진되고 있습니다.

브라우저에서 실제로 대규모 변화를 촉발할 수 있는 것은 데이터 상호작용 계층입니다. 과거에는 사람들이 키워드를 입력하여 상호작용을 완료했는데, 이는 브라우저가 이해할 수 있는 한계였습니다. 이제 사용자들은 다음과 같은 복잡한 작업을 설명하기 위해 자연어로 된 문장 전체를 사용하는 경향이 점점 더 커지고 있습니다.

"특정 기간 동안 뉴욕에서 로스앤젤레스까지 직항편을 찾으세요"
"뉴욕에서 상하이, 그리고 로스앤젤레스로 가는 항공편을 찾고 있습니다"

이러한 행동은 인간에게도 여러 웹사이트를 방문하고 데이터를 수집 및 비교하는 데 많은 시간이 소요됩니다. 그러나 이러한 에이전트적 작업은 점차 AI 에이전트에게 맡겨지고 있습니다.

이는 역사적 진화의 방향, 즉 자동화와 지능화의 방향과도 일맥상통합니다. 사람들은 자유로워지기를 갈망하며, AI 에이전트는 브라우저에 깊이 내장될 것입니다. 미래의 브라우저는 특히 다음 사항들을 고려하여 완전 자동화를 염두에 두고 설계되어야 합니다.

인간의 판독 경험과 AI 에이전트의 구문 분석 가능성의 균형을 어떻게 맞출까요?
동일한 페이지에서 사용자와 프록시 모델을 모두 제공하는 방법.

이 두 가지 요구 사항을 디자인이 충족할 때에만 브라우저는 AI Agent가 작업을 수행하는 안정적인 캐리어가 될 수 있습니다.

다음으로, Browser Use, Arc(The Browser Company), Perplexity, Brave, Donut 등 많은 기대를 모으고 있는 다섯 가지 프로젝트에 집중하겠습니다. 이 프로젝트들은 AI 브라우저의 미래 발전과 Web 3.0 및 Crypto 환경에서의 네이티브 통합 가능성을 보여줍니다.

브라우저 사용

이것이 바로 Perplexity와 Browser Use에 대한 막대한 자금 조달의 핵심 논리입니다. 특히 Browser Use는 2025년 상반기에 등장할 두 번째로 확실하고 성장 잠재력이 큰 혁신 기회입니다.

브라우저는 진정한 의미 계층을 구축했으며, 그 핵심은 차세대 브라우저를 위한 의미 인식 아키텍처를 구축하는 것입니다.

Browser Use는 기존의 "DOM = 인간을 위한 노드 트리"를 "시맨틱 DOM = LLM을 위한 명령어 트리"로 변환하여 에이전트가 "필름 지점의 좌표를 확인하지 않고도" 정확하게 클릭하고, 입력하고, 업로드할 수 있도록 합니다. 이 방식은 시각적 OCR이나 셀레늄 좌표를 "구조화된 텍스트 → 함수 호출"로 대체하여 실행 속도를 높이고, 토큰을 절약하며, 오류를 줄입니다. TechCrunch는 이를 "AI가 웹 페이지를 진정으로 이해할 수 있도록 하는 연결 계층"이라고 부르며, 3월에 완료된 1,700만 달러 규모의 시드 투자는 이러한 근본적인 혁신에 대한 투자입니다.

HTML 렌더링 후 표준 DOM 트리가 형성됩니다. 그런 다음 브라우저는 접근성 트리를 파생시켜 화면 판독기에 더욱 풍부한 "역할" 및 "상태" 레이블을 제공합니다.

각 대화형 요소에 대해 (
LLM이 시스템 프롬프트에서 한 번에 읽을 수 있도록 전체 페이지를 플랫한 "의미 노드 목록"으로 번역합니다.
LLM에서 출력하는 고급 지침(예: click(node_id="btn-Checkout"))을 수신하여 실제 브라우저에서 재생합니다. 공식 블로그에서는 이 과정을 "웹사이트 인터페이스를 LLM에서 구문 분석할 수 있는 구조화된 텍스트로 변환"이라고 합니다.

동시에, 이 표준 세트가 W3C에 도입되면 브라우저 입력 문제를 상당 부분 해결할 수 있습니다. 브라우저 컴퍼니의 공개 서한과 사례를 통해 브라우저 컴퍼니의 아이디어가 왜 잘못되었는지 자세히 설명하겠습니다.

호

브라우저 컴퍼니(Arc의 모회사)는 공개 서한을 통해 ARC 브라우저가 정기적인 유지보수 단계에 돌입하며, 팀은 AI에 완전히 집중하는 브라우저인 DIA에 집중할 것이라고 밝혔습니다. 또한 DIA의 구체적인 구현 방향은 아직 결정되지 않았다고 밝혔습니다. 동시에, 팀은 서한에서 미래 브라우저 시장에 대한 몇 가지 예측을 제시했습니다. 이러한 예측을 바탕으로, 기존 브라우저 환경을 진정으로 뒤집고 싶다면, 인터랙티브 측면의 결과물을 변화시키는 것이 핵심이라고 생각합니다.

브라우저 시장의 미래에 대한 ARC 팀의 세 가지 예측은 다음과 같습니다.

첫째, 웹페이지가 더 이상 주요 인터랙티브 인터페이스가 아니라고 생각합니다. 물론 이는 어려운 판단이며, 창립자의 성찰 결과에 대해 우리가 의구심을 갖는 주요 이유이기도 합니다. 저희는 이러한 관점이 브라우저의 역할을 상당히 과소평가하고 있다고 생각합니다. 이는 AI 브라우저의 미래를 탐구할 때 간과하는 핵심 문제이기도 합니다.

빅 모델은 "항공권 예약해 줘"와 같은 명령을 이해하는 등 사용자의 의도를 포착하는 데 탁월합니다. 하지만 정보 밀도 측면에서는 여전히 부족합니다. 사용자가 대시보드, 블룸버그 터미널 스타일의 메모장, 또는 Figma와 같은 시각적 캔버스를 필요로 할 때, 픽셀 수준의 정밀도로 구성된 전용 웹페이지만큼 효과적인 것은 없습니다. 각 제품에 맞춰 설계된 인체공학적 디자인(차트, 드래그 앤 드롭 기능, 단축키)은 단순한 장식용이 아니라 압축된 인지적 어포던스(affordance)에 불과합니다. 이러한 기능은 단순한 대화형 상호작용으로는 구현할 수 없습니다. Gate.com을 예로 들어, 사용자가 투자 거래를 하려는 경우, AI 대화에만 의존하는 것은 충분하지 않습니다. 사용자는 정보 입력, 정확성, 그리고 체계적인 프레젠테이션에 크게 의존하기 때문입니다.

RC 팀은 경로 가정에 있어 본질적인 오류를 범하고 있습니다. 즉, "상호작용"이 입력과 출력이라는 두 가지 차원으로 구성된다는 점을 명확하게 구분하지 못하고 있습니다. 입력 측면에서는 일부 시나리오에서 타당한 관점을 가지고 있으며, AI는 명령 기반 상호작용의 효율성을 실제로 향상시킬 수 있습니다. 그러나 출력 측면에서는 정보 표현과 개인화된 경험에서 브라우저의 핵심 역할을 무시한 채 명백히 불균형적인 판단을 내립니다. 예를 들어, Reddit은 고유한 레이아웃과 정보 아키텍처를 가지고 있는 반면, AAVE는 완전히 다른 인터페이스와 구조를 가지고 있습니다. 고도로 개인화된 데이터를 수용하고 다양한 제품 인터페이스를 제공할 수 있는 플랫폼으로서, 입력 계층에서의 브라우저 대체 가능성은 제한적이며, 출력 측면에서는 복잡성과 비표준화로 인해 전복이 더욱 어렵습니다. 반면, 현재 시중에 나와 있는 AI 브라우저는 웹페이지 요약, 정보 정제, 결론 도출 등 '출력 요약' 수준에 더 집중하고 있어, 주류 브라우저나 구글과 같은 검색 시스템에 근본적인 도전이 될 만큼 충분하지 않으며, 검색 요약의 시장 점유율만 공유하고 있습니다.

따라서 최대 66%의 시장 점유율을 자랑하는 크롬을 진정으로 뒤흔들 수 있는 존재가 "차세대 크롬"이 될 수는 없습니다. 이러한 혁신을 이루기 위해서는 브라우저의 렌더링 방식이 근본적으로 재편되어 지능형 시대, 특히 입력 측면의 아키텍처 설계에서 AI 에이전트가 주도하는 상호작용적 요구에 적응할 수 있도록 해야 합니다. 이러한 이유로 우리는 브라우저 유즈(Browser Use)가 취한 기술적 방향을 더 지지합니다. 브라우저 유즈는 브라우저의 기본 메커니즘의 구조적 변화에 초점을 맞춥니다. 어떤 시스템이 "원자화"되거나 "모듈화"되면, 그에 따른 프로그래밍 가능성과 결합 가능성은 매우 파괴적인 혁신적 잠재력을 가져올 것이며, 이것이 바로 브라우저 유즈가 현재 추진하고 있는 방향입니다.

요약하자면, AI Agent의 작동은 여전히 브라우저의 존재에 크게 의존하고 있습니다. 브라우저는 복잡한 개인화 데이터의 주요 저장 공간일 뿐만 아니라, 다양한 애플리케이션을 위한 범용 렌더링 인터페이스이기도 하므로, 앞으로도 핵심적인 상호작용 입구 역할을 계속할 것입니다. AI Agent는 고정된 작업을 수행하기 위해 브라우저에 깊이 내장되어 있기 때문에 사용자 데이터를 호출하여 특정 애플리케이션과 상호작용하며, 주로 입력 측에서 작동합니다. 따라서 브라우저의 기존 렌더링 방식을 혁신하여 AI Agent와의 호환성과 적응성을 극대화하고 애플리케이션을 더욱 효과적으로 포착해야 합니다.

당황

퍼플렉시티는 추천 시스템으로 유명한 AI 검색 엔진입니다. 최근 기업 가치는 최대 140억 달러로, 2024년 6월 기준 30억 달러의 거의 5배에 달합니다. 매달 4억 건 이상의 검색 쿼리를 처리하며, 2024년 9월에는 약 2억 5천만 건의 쿼리를 처리했습니다. 사용자 쿼리 수는 전년 대비 8배 증가했고, 월간 활성 사용자 수는 3천만 명을 넘어섰습니다.

주요 기능은 페이지를 실시간으로 요약할 수 있다는 점인데, 이는 즉각적인 정보를 얻는 데 유리합니다. 올해 초, 퍼플렉시티는 자체 네이티브 브라우저인 코멧(Comet) 개발에 착수했습니다. 퍼플렉시티는 곧 출시될 코멧을 웹 페이지를 "표시"할 뿐만 아니라 "생각"까지 하는 브라우저라고 설명합니다. 관계자는 퍼플렉시티의 답변 엔진을 브라우저 내부에 깊숙이 내장할 것이라고 밝혔는데, 이는 잡스 스타일의 "전체 기계" 아이디어입니다. 사이드바 플러그인을 만드는 대신 AI 작업을 브라우저 하단에 깊숙이 묻어 두는 것입니다. 기존의 "파란색 링크 10개"를 인용이 포함된 간결한 답변으로 대체하여 크롬과 직접 경쟁할 것입니다.

하지만 여전히 두 가지 핵심 문제, 즉 높은 검색 비용과 한계 사용자로부터의 낮은 수익률 문제를 해결해야 합니다. Perplexity는 이미 AI 검색 분야에서 선두 자리를 차지하고 있지만, Google은 2025 I/O 컨퍼런스에서 핵심 제품의 대규모 지능형 개편을 발표했습니다. 브라우저 개편에 대응하여 Google은 오버뷰, 딥 리서치, 그리고 향후 Agentic 기능을 통합한 AI 모델이라는 새로운 브라우저 탭 환경을 출시했습니다. 이 프로젝트의 이름은 "Project Mariner"입니다.

구글은 AI를 적극적으로 재편하고 있기 때문에, 오버뷰, 딥리서치, 에이전틱스처럼 표면적으로 AI의 기능을 모방하는 것만으로는 실질적인 위협을 가하기 어렵습니다. 혼돈 속에서 새로운 질서를 확립할 가능성이 가장 높은 것은 브라우저 아키텍처를 하향식으로 재구성하고, 대규모 언어 모델(LLM)을 브라우저 커널에 깊숙이 내장하여 상호작용 방식에 근본적인 변화를 가져오는 것입니다.

용감한

브레이브는 암호화폐 업계에서 가장 오래되고 성공적인 브라우저입니다. 크로미엄 아키텍처를 기반으로 하기 때문에 구글 스토어의 플러그인과 호환됩니다. 브레이브는 개인 정보 보호와 브라우징을 통한 토큰 획득 모델을 통해 사용자를 유치합니다. 브레이브의 개발 과정은 어느 정도 성장 잠재력을 보여주었습니다. 그러나 제품 측면에서 개인 정보 보호는 중요하지만, 여전히 특정 사용자 그룹에 대한 수요가 집중되어 있으며, 개인 정보 보호에 대한 인식은 아직 일반 대중의 주요 의사 결정 요인으로 자리 잡지 못했습니다. 따라서 이 기능을 활용하여 기존 거대 기업들을 무너뜨리려는 시도는 가능성이 낮습니다.

현재 브레이브는 월간 활성 사용자 8,270만 명과 일일 활성 사용자 3,560만 명을 보유하고 있으며, 시장 점유율은 약 1~1.5%입니다. 사용자 규모는 지속적으로 증가하고 있습니다. 2019년 7월 600만 명에서 2021년 1월 2,500만 명, 2023년 1월 5,700만 명, 2025년 2월 8,200만 명 이상으로 연평균 두 자릿수 성장률을 기록하고 있습니다. 월평균 검색량은 약 13억 4천만 회이며, 이는 구글의 약 0.3%에 해당합니다.

Brave의 반복적 로드맵은 아래와 같습니다.

Brave는 개인정보 보호를 최우선으로 하는 AI 브라우저로 업그레이드할 계획입니다. 하지만 사용자 데이터 접근이 제한적이기 때문에, 이 대규모 모델은 사용자 정의가 어려워 빠르고 정확한 제품 개발에 어려움을 겪고 있습니다. 다가오는 Agentic Browser 시대에 Brave는 개인정보 보호를 중시하는 일부 사용자 그룹 사이에서 안정적인 점유율을 유지할 수 있겠지만, 주요 업체로 자리매김하기는 어려울 것으로 예상됩니다. Brave의 AI 비서 Leo는 기존 제품의 기능을 강화하고 콘텐츠를 요약하는 특정 기능만 제공하는 플러그인 형태에 가깝지만, AI Agent로 완전히 전환하기 위한 명확한 전략은 없으며, 상호작용 측면에서의 혁신 또한 아직 미흡합니다.

도넛

최근 암호화폐 업계는 Agentic Browser 분야에서도 진전을 보이고 있습니다. 스타트업 프로젝트 Donut은 Sequoia China(Hongshan), HackVC, Bitkraft Ventures가 주도하는 프리시드 라운드에서 700만 달러의 투자를 유치했습니다. 이 프로젝트는 아직 초기 구상 단계에 있으며, "발견, 의사 결정, 그리고 암호화폐 네이티브 실행"의 통합 역량을 구축하는 것을 목표로 합니다.

이 방향의 핵심은 암호화 기반 자동 실행 경로를 결합하는 것입니다. a16z가 예측했듯이, 미래에는 에이전트가 주요 트래픽 진입점으로서 검색 엔진을 대체할 것으로 예상됩니다. 기업가들은 더 이상 구글의 순위 알고리즘을 둘러싼 경쟁이 아니라, 에이전트 실행을 통해 발생하는 접근 및 전환 트래픽을 확보하기 위해 경쟁할 것입니다. 업계에서는 이러한 추세를 "AEO"(Answer/Agent Engine Optimization) 또는 더 나아가 "ATF"(Agentic Task Fulfilment)라고 부릅니다. 즉, 더 이상 검색 순위를 최적화하는 것이 아니라 주문, 티켓 예약, 사용자를 위한 편지 작성 등의 작업을 수행할 수 있는 지능형 모델을 직접 제공하는 것입니다.

기업가를 위해

우선, 브라우저 자체가 인터넷 세계에서 아직 재건되지 않은 가장 큰 "주요 입구"라는 점을 인정해야 합니다. 전 세계적으로 약 21억 명의 데스크톱 사용자와 43억 명이 넘는 모바일 사용자가 있습니다. 브라우저는 데이터 입력, 상호작용적 행동, 그리고 개인화된 지문 저장을 위한 공통적인 매개체입니다. 이러한 형태가 지속되는 이유는 관성 때문이 아니라, 브라우저가 본질적으로 양방향 속성을 가지고 있기 때문입니다. 즉, 데이터를 "읽는 입구"이자 행동을 "쓰는 출구"라는 것입니다.

따라서 기업가들에게 진정한 혁신의 잠재력은 "페이지 출력" 수준의 최적화가 아닙니다. 새 탭에서 Google과 유사한 AI 개요 기능을 구현할 수 있다 하더라도, 이는 본질적으로 브라우저 플러그인 계층의 반복일 뿐이며 아직 근본적인 패러다임 변화를 가져오지는 못했습니다. 진정한 혁신은 "입력 측면", 즉 AI 에이전트가 기업가의 제품을 적극적으로 호출하여 특정 작업을 완료하도록 하는 방법에 있습니다. 이는 향후 제품이 에이전트 생태계에 통합되어 트래픽과 가치 분배를 확보할 수 있을지 여부를 결정하는 핵심 요소가 될 것입니다.

검색 시대에는 '클릭'이라고 부르고, 에이전시 시대에는 '콜'이라고 부릅니다.

기업가라면 제품을 API 구성 요소로 재구성하여 지능형 에이전트가 제품을 "읽을" 뿐만 아니라 "호출"할 수 있도록 하는 것이 좋습니다. 이를 위해서는 제품 설계 초기 단계에서 세 가지 측면을 고려해야 합니다.

1. 인터페이스 구조의 표준화: 귀하의 제품은 "호출 가능"합니까?

제품이 지능형 에이전트에 의해 호출될 수 있는지 여부는 정보 구조를 표준화하고 명확한 스키마로 추상화할 수 있는지 여부에 따라 달라집니다. 예를 들어, 사용자 등록, 주문 버튼, 댓글 제출과 같은 주요 작업을 시맨틱 DOM 구조나 JSON 매핑을 통해 설명할 수 있습니까? 시스템은 에이전트가 사용자 행동 프로세스를 안정적으로 재현할 수 있도록 상태 머신을 제공합니까? 페이지에서의 사용자 상호작용이 스크립트 기반 복원을 지원합니까? 안정적인 액세스 웹훅 또는 API 엔드포인트가 있습니까?

이것이 Browser Use가 성공적으로 자금을 조달할 수 있었던 핵심 이유입니다. Browser Use는 브라우저를 플랫 렌더링된 HTML에서 LLM에서 호출할 수 있는 시맨틱 트리로 변환합니다. 기업가들에게 웹 제품에 유사한 디자인 개념을 도입하는 것은 AI 에이전트 시대에 맞춰 구조적 변화를 이루는 것입니다.

2. 신원 및 접근성: 에이전트가 "신뢰 장벽을 극복"하도록 도울 수 있습니까?

AI 에이전트가 거래를 완료하고, 결제 또는 자산을 호출하려면 일종의 신뢰할 수 있는 중간 계층이 필요합니다. 당신이 그 역할을 할 수 있을까요? 브라우저는 자연스럽게 로컬 저장소를 읽고, 지갑을 호출하고, 인증 코드를 식별하고, 2단계 인증에 접근할 수 있기 때문에 대규모 클라우드 모델보다 실행에 더 적합합니다. 특히 Web3 시나리오에서는 더욱 그렇습니다. 온체인 자산을 호출하는 인터페이스 표준이 통일되지 않았기 때문에 에이전트는 "신원" 또는 "서명 기능" 없이는 진행할 수 없습니다.

따라서 암호화폐 기업가들에게는 매우 창의적인 빈 공간이 있습니다. 바로 "블록체인 세계의 MCP(Multi Capability Platform)"입니다. 이는 일반적인 명령 계층(에이전트가 Dapp을 호출하도록 하는 기능), 표준화된 계약 인터페이스 세트, 또는 로컬에서 실행되는 경량 지갑 + 신원 중간 플랫폼이 될 수 있습니다.

3. 교통 메커니즘의 재이해: 미래는 SEO가 아닌 AEO/ATF입니다.

과거에는 구글 알고리즘의 호의를 얻어야 했지만, 이제는 AI 에이전트를 통해 작업 체인에 통합되어야 합니다. 즉, 제품은 명확한 작업 단위를 가져야 합니다. "페이지"가 아니라 "호출 가능한 기능 단위"의 문자열이어야 합니다. 즉, 에이전트 최적화(AEO) 또는 작업 스케줄링 적응(ATF)을 시작해야 합니다. 예를 들어, 등록 프로세스를 구조화된 단계로 간소화할 수 있는지, 가격을 인터페이스를 통해 가져올 수 있는지, 재고를 실시간으로 확인할 수 있는지 등을 고려해야 합니다.

서로 다른 LLM 프레임워크에서 호출 구문을 조정해야 할 수도 있습니다. OpenAI와 Claude는 함수 호출과 도구 사용에 대한 선호도가 다릅니다. Chrome은 구세계로 가는 종착역이지, 신세계로 가는 입구가 아닙니다. 진정으로 유망한 스타트업 프로젝트는 새로운 브라우저를 만드는 것이 아니라, 기존 브라우저가 에이전트를 지원하고 차세대 "명령 흐름"을 위한 교량을 구축하는 것입니다.