저자: Certik
최근 오픈소스 자체 호스팅 AI 에이전트 플랫폼인 오픈클로(업계에서는 '리틀 랍스터'로 널리 알려짐)가 유연한 확장성과 자체 제어 가능한 배포 특성 덕분에 빠르게 인기를 얻으며 개인 AI 에이전트 분야에서 센세이션을 일으키고 있습니다. 오픈클로의 핵심 생태계인 클로허브는 애플리케이션 마켓플레이스 역할을 하며, 수많은 타사 스킬 플러그인을 통합하여 에이전트가 웹 검색 및 콘텐츠 제작부터 암호화 지갑 운영, 온체인 상호 작용, 시스템 자동화에 이르기까지 다양한 고급 기능을 단 한 번의 클릭으로 활용할 수 있도록 지원합니다. 이러한 특징 덕분에 생태계 규모와 사용자 기반이 폭발적으로 성장했습니다.
하지만 높은 권한으로 실행되는 이러한 타사 스킬에 대한 플랫폼의 진정한 보안 경계는 정확히 어디일까요?
최근 세계 최대 웹3 보안 기업인 CertiK는 스킬 보안에 대한 최신 연구 결과를 발표했습니다. 이 보고서는 AI 에이전트 생태계의 보안 경계에 대한 시장의 오해를 지적합니다. 업계에서는 일반적으로 "스킬 스캐닝"을 핵심 보안 경계로 여기지만, 이 메커니즘은 해커 공격에 거의 무용지물이라는 것입니다.
OpenClaw를 스마트 기기의 운영 체제에 비유하자면, 스킬은 그 시스템에 설치된 다양한 앱과 같습니다. 일반적인 소비자용 앱과는 달리, OpenClaw의 일부 스킬은 높은 권한 환경에서 실행되어 로컬 파일에 직접 접근하고, 시스템 도구를 호출하고, 외부 서비스에 연결하고, 호스트 환경에서 명령을 실행하고, 심지어 사용자의 암호화된 디지털 자산을 조작할 수도 있습니다. 이러한 보안 문제에 직면할 경우, 민감한 정보 유출, 기기 원격 제어, 디지털 자산 도난과 같은 심각한 결과를 초래할 수 있습니다.
현재 업계 전반에서 타사 스킬에 대한 표준 보안 솔루션은 "사전 등록 스캔 및 검토"입니다. OpenClaw의 Clawhub 또한 VirusTotal 코드 스캔, 정적 코드 분석 엔진, AI 기반 논리 일관성 탐지 기능을 통합한 3단계 검토 및 보호 시스템을 구축하여 위험 수준에 따라 사용자에게 보안 팝업을 제공함으로써 생태계 보안을 강화하고자 노력하고 있습니다. 그러나 CertiK의 연구 및 개념 증명 공격 테스트 결과, 이러한 탐지 시스템은 실제 공격 및 방어 시나리오에서 한계가 있으며 핵심적인 보안 보호 책임을 다할 수 없다는 것이 확인되었습니다.
본 연구는 우선 기존 탐지 메커니즘의 내재적 한계를 분석합니다.
정적 탐지 규칙은 쉽게 우회될 수 있습니다. 이 엔진의 핵심은 코드 특징을 비교하여 위험을 식별하는 것입니다. 예를 들어, "민감한 환경 정보 읽기 + 네트워크 요청 전송"의 조합을 고위험 행위로 식별할 수 있습니다. 그러나 공격자는 코드의 구문을 약간만 변경하면 악성 로직은 유지하면서 특징 일치 방식을 쉽게 우회할 수 있습니다. 마치 위험한 콘텐츠에 다른 동의어를 부여하는 것과 같아서 보안 스캐너를 완전히 무력화시킵니다.
AI 기반 감사에는 본질적인 사각지대가 있습니다. 클로허브(Clawhub)의 AI 감사는 "논리 일관성 탐지기"로 포지셔닝되어 있는데, 이는 "실제 동작과 일치하지 않는 함수를 선언하는" 명백한 악성 코드만 식별할 수 있을 뿐, 일반적인 비즈니스 로직에 숨겨진 악용 가능한 취약점에는 무력합니다. 마치 겉보기에 규정을 준수하는 계약서 조항 깊숙이 숨겨진 치명적인 함정을 찾아내려는 것과 같습니다.
더욱 치명적인 것은 검토 과정에 근본적인 설계 결함이 있다는 점입니다. VirusTotal의 검사 결과가 "대기 중" 상태이더라도, 전체 "검사" 과정을 완료하지 않은 Skill이 직접 업로드되어 공개될 수 있으며, 이로 인해 사용자는 경고 없이 해당 악성 프로그램을 설치할 수 있게 되어 공격자에게 악용될 기회를 제공합니다.
실제 위험의 심각성을 확인하기 위해 CertiK 연구팀은 전체 테스트를 완료했습니다. 연구팀은 "test-web-searcher"라는 스킬을 개발했는데, 이는 표준 개발 관행을 준수하는 코드 로직을 가진 완벽하게 작동하는 웹 검색 도구처럼 보입니다. 그러나 실제로는 정상적인 기능 흐름 내에 원격 코드 실행 취약점이 숨겨져 있습니다.
이 기술은 정적 엔진 및 AI 검토를 우회하며, VirusTotal 검사가 진행 중인 동안에도 보안 경고 없이 정상적으로 설치될 수 있습니다. 마지막으로, 텔레그램을 통해 원격으로 명령을 전송하여 취약점을 성공적으로 활성화하고 호스트 장치에서 임의 명령 실행을 가능하게 했습니다(시연에서는 계산기 팝업을 직접 제어했습니다).
CertiK의 연구는 이러한 문제가 OpenClaw만의 제품 버그가 아니라 AI 에이전트 업계 전반에 만연한 오해라는 점을 명확히 지적합니다. 업계는 일반적으로 "승인 심사"를 핵심 보안 방어 수단으로 여기면서, 진정한 보안의 기반인 런타임 시의 필수적인 격리와 세분화된 권한 제어를 간과하고 있습니다. 이는 Apple의 iOS 생태계의 핵심 보안과 유사합니다. iOS 보안은 App Store의 엄격한 승인 절차가 아니라, 각 앱이 전용 "격리 환경"에서만 실행되고 시스템 권한을 임의로 획득할 수 없도록 보장하는 시스템의 필수 샌드박스 메커니즘과 세분화된 권한 제어에 있습니다. 그러나 OpenClaw의 기존 샌드박스 메커니즘은 필수가 아닌 선택 사항이며 사용자의 수동 설정에 크게 의존합니다. 대부분의 사용자는 스킬의 기능을 보장하기 위해 샌드박스를 비활성화하여 에이전트를 "무방비" 상태로 남겨둡니다. 취약점이나 악성 코드가 포함된 스킬이 설치되면 치명적인 결과를 초래할 수 있습니다.
발견된 문제점에 대응하여 CertiK는 보안 지침도 제공했습니다.
- OpenClaw와 같은 AI 에이전트 개발자는 타사 스킬에 대해 샌드박스 격리를 기본 필수 구성으로 설정해야 하며, 스킬의 권한 제어 모델을 개선해야 합니다. 타사 코드는 호스트 시스템의 높은 권한을 기본적으로 상속받아서는 안 됩니다.
- 일반 사용자의 경우, 스킬 마켓플레이스에서 "안전"으로 표시된 스킬은 위험 요소로 감지되지 않았다는 의미일 뿐, 절대적으로 안전하다는 것을 의미하지는 않습니다. 공식적인 강력한 격리 메커니즘이 기본 설정으로 지정될 때까지는 OpenClaw를 중요하지 않은 유휴 장치나 가상 머신에 배포하고, 민감한 파일, 암호 자격 증명 또는 중요한 암호화 자산 근처에는 절대 배치하지 않는 것이 좋습니다.
현재 AI 에이전트 경쟁은 폭발적인 성장을 앞두고 있지만, 생태계 확장 속도가 보안 개발 속도를 앞질러서는 안 됩니다. 검토 및 스캔만으로는 기본적인 악성 공격만 막을 수 있을 뿐, 고권한 에이전트에 대한 보안 경계를 구축할 수는 없습니다. "완벽한 탐지 추구"에서 "기존 위험을 감수하여 피해를 최소화하는" 방향으로 전환하고, 런타임 수준에서 격리 경계를 강제적으로 설정해야만 AI 에이전트의 보안 마지노선을 진정으로 확보하고 이 기술 혁명의 안정적이고 장기적인 발전을 보장할 수 있습니다.


