Pantera Capital의 파트너인 Paul Veradittakit 작성
편집자: xiaozou, Golden Finance
요약:
- VLA 혁신과 규모의 경제는 저렴하고 효율적이며 다재다능한 인간형 로봇의 탄생을 촉진하고 있습니다.
- 창고 로봇이 소비자 로봇 시장으로 확장됨에 따라 로봇 안전, 자금 조달, 평가 메커니즘에 대한 추가 탐색이 필요합니다.
- 암호화는 로봇 안전에 대한 경제적 보장을 제공하고 도킹 인프라, 지연 시간, 데이터 수집 프로세스를 최적화함으로써 로봇 산업을 발전시킬 것입니다.
ChatGPT는 인공지능에 대한 인간의 기대를 완전히 바꿔 놓습니다. 대규모 언어 모델이 외부 소프트웨어 세계와 상호작용하기 시작했을 때, 많은 사람들은 AI 에이전트가 궁극적인 형태라고 생각했습니다. 하지만 "스타워즈", "블레이드 러너", "로보캅"과 같은 고전 SF 영화를 다시 살펴보면, 인간이 진정으로 꿈꾸는 것은 인공지능이 로봇의 형태로 물리적 세계와 상호작용하는 것입니다.
PanteraCapital은 로봇 공학 분야에서 "ChatGPT 모멘텀"이 도래할 것이라고 믿습니다. 먼저 인공지능 분야의 획기적인 발전이 지난 몇 년간 산업 환경을 어떻게 변화시켰는지 분석하고, 배터리 기술, 지연 시간 최적화, 데이터 수집 개선이 미래 환경과 암호화 기술의 역할을 어떻게 형성할지 살펴보겠습니다. 마지막으로 로봇 안전, 자금 조달, 평가, 교육이 핵심 분야로 집중되어야 한다고 생각하는 이유를 설명하겠습니다.
1. 변화의 요소
(1) 인공지능 분야의 획기적인 발전
다중 모드 대규모 언어 모델 분야의 발전은 로봇에게 복잡한 작업을 수행하는 데 필요한 "두뇌"를 제공하고 있습니다. 로봇은 주로 시각과 청각을 통해 주변 환경을 인식합니다.
기존의 컴퓨터 비전 모델(예: 합성곱 신경망)은 객체 감지나 분류 작업에는 적합하지만, 시각 정보를 목적 있는 동작 지침으로 변환하는 데는 어려움이 있습니다. 대규모 언어 모델은 텍스트 이해 및 생성에는 우수한 성능을 보이지만, 물리적 세계를 인식하는 능력에는 한계가 있습니다.

비전-언어-행동(VLA) 모델을 통해 로봇은 통합 컴퓨팅 프레임워크에서 시각 인식, 언어 이해, 그리고 물리적 행동을 통합할 수 있습니다. Figure AI는 2025년 2월, 범용 휴머노이드 로봇 제어 모델인 Helix를 출시했습니다. VLA 모델은 제로샷 일반화 기능과 시스템 1/시스템 2 이중 아키텍처를 통해 업계의 새로운 기준을 제시합니다. 제로샷 일반화 기능을 통해 로봇은 각 작업에 대한 반복적인 훈련 없이도 새로운 시나리오, 새로운 객체, 그리고 새로운 명령에 즉시 적응할 수 있습니다. 시스템 1/시스템 2 아키텍처는 고차원 추론과 경량 추론을 분리하여 인간과 유사한 사고와 실시간 정확도를 모두 갖춘 상업용 휴머노이드 로봇을 구현합니다.
(2) 경제적인 로봇이 현실이 되다
세상을 바꾸는 기술들은 모두 한 가지 공통점을 가지고 있습니다. 바로 접근성입니다. 스마트폰, 개인용 컴퓨터, 3D 프린팅 기술은 모두 중산층이 감당할 수 있는 가격으로 이용할 수 있게 되었습니다. 유니트리 G1과 같은 로봇의 가격이 혼다 어코드나 미국의 최저 연소득 3만 4천 달러보다 저렴하다면, 육체 노동과 일상 업무를 대부분 로봇이 수행하는 세상을 상상하는 것은 놀라운 일이 아닙니다.

(3) 창고에서 소비자 시장으로
로봇 공학은 창고 솔루션에서 소비자 분야로 확장되고 있습니다. 세상은 인간을 위해 설계되었습니다. 인간은 전문 로봇의 모든 작업을 수행할 수 있지만, 전문 로봇이 인간의 모든 작업을 수행할 수는 없습니다. 로봇 회사들은 공장 전용 로봇을 제조하는 것을 넘어 더욱 범용적인 휴머노이드 로봇을 개발하고 있습니다. 결과적으로 로봇 공학 기술의 최전선은 창고뿐만 아니라 일상생활에도 스며들게 될 것입니다.
비용은 확장성의 주요 병목 현상 중 하나입니다. 우리가 가장 중요하게 생각하는 지표는 시간당 종합 비용입니다. 이는 훈련 및 충전 시간의 기회 비용, 작업 수행 비용, 그리고 로봇 구매 비용을 합산한 후 로봇의 총 가동 시간으로 나누어 계산합니다. 경쟁력을 유지하려면 이 비용이 관련 산업의 평균 임금 수준보다 낮아야 합니다.

창고업 분야에 본격적으로 진출하려면 로봇의 시간당 총 비용이 31.39달러 미만이어야 합니다. 최대 소비 시장인 사립 교육 및 의료 서비스 분야에서는 로봇 비용을 35.18달러 미만으로 유지해야 합니다. 현재 로봇은 더 저렴하고, 더 효율적이며, 더 다재다능해지는 방향으로 나아가고 있습니다.
2. 로봇공학의 다음 혁신
(1) 배터리 최적화
배터리 기술은 사용자 친화적인 로봇 개발에 있어 항상 걸림돌이 되어 왔습니다. BMW i3와 같은 초기 전기차는 배터리 기술의 한계로 인해 대중화에 어려움을 겪었고, 짧은 배터리 수명, 높은 가격, 낮은 실용성으로 이어졌습니다. 로봇 또한 동일한 딜레마에 직면하고 있습니다. 보스턴 다이내믹스의 스팟 로봇은 단일 배터리 수명이 90분에 불과하고, 유니트리 G1은 약 2시간 동안 사용할 수 있습니다. 사용자들은 2시간마다 수동으로 충전하는 것을 꺼리기 때문에, 자율 충전 및 도킹 인프라 구축이 핵심 개발 방향이 되었습니다. 현재 로봇 충전에는 배터리 교체 또는 직접 충전, 두 가지 주요 방식이 있습니다.
배터리 교체 모드는 방전된 배터리 팩을 빠르게 교체하여 연속 작동을 가능하게 하고, 가동 중단 시간을 최소화하며, 현장이나 공장 환경에 적합합니다. 이 프로세스는 수동 또는 자동으로 수행할 수 있습니다.
유도 충전은 무선 전력 공급을 사용합니다. 완전히 충전하는 데 시간이 오래 걸리지만, 완전 자동화된 충전 과정을 쉽게 구현할 수 있습니다.
(2) 지연 최적화
저지연 작업은 환경 인지와 원격 제어의 두 가지 범주로 나눌 수 있습니다. 인지는 로봇이 환경을 공간적으로 인지하는 것을 의미하고, 원격 제어는 구체적으로 인간 작업자의 실시간 제어를 의미합니다.
신트리니(Cintrini) 연구에 따르면 로봇 인지 시스템은 저렴한 센서에서 시작하지만, 기술적 우위는 소프트웨어, 저전력 컴퓨팅, 그리고 밀리초 단위의 정밀 제어 루프의 통합에 있습니다. 로봇이 공간 위치 지정을 완료하면 경량 신경망이 장애물, 팔레트, 또는 사람과 같은 요소를 표시합니다. 장면 레이블이 계획 시스템에 입력되면 즉시 운동 명령이 생성되어 발, 바퀴 또는 로봇 팔로 전송됩니다. 50밀리초 미만의 인지 지연은 인간의 반사 속도와 같으며, 이 한계점을 초과하는 지연은 로봇의 움직임을 둔하게 만듭니다. 따라서 의사 결정의 90%는 단일 시각-언어-행동 네트워크를 통해 로컬에서 이루어져야 합니다.
완전 자율 로봇은 고성능 VLA 모델의 지연 시간이 50밀리초 미만이어야 합니다. 원격 제어 로봇은 조작자와 로봇 간의 신호 지연 시간이 50밀리초를 초과해서는 안 됩니다. VLA 모델의 중요성은 특히 여기서 두드러집니다. 시각 및 텍스트 입력이 서로 다른 모델에서 처리되어 대규모 언어 모델에 입력될 경우, 전체 지연 시간은 50밀리초 한계값을 훨씬 초과하게 됩니다.
(3) 데이터 수집 최적화
데이터 수집에는 세 가지 주요 방법이 있습니다. 실제 세계 비디오 데이터, 합성 데이터, 그리고 원격 제어 데이터입니다. 실제 세계 데이터와 합성 데이터의 핵심 병목은 로봇의 물리적 동작과 비디오/시뮬레이션 모델 간의 간극을 메우는 것입니다. 실제 세계 비디오 데이터에는 힘 피드백, 관절 동작 오류, 재료 변형과 같은 물리적 세부 정보가 부족한 반면, 시뮬레이션 데이터에는 센서 고장이나 마찰 계수와 같은 예측 불가능한 변수가 부족합니다.
가장 유망한 데이터 수집 방법은 원격 제어로, 인간 작업자가 로봇을 원격으로 제어하여 작업을 수행합니다. 그러나 인건비는 원격 제어 데이터 수집의 주요 제한 요소입니다.
맞춤형 하드웨어 개발은 고품질 데이터 수집을 위한 새로운 솔루션도 제공합니다. Mecka는 기존 방식과 맞춤형 하드웨어를 결합하여 다차원 인간 동작 데이터를 수집하고, 이를 처리하여 로봇 신경망 훈련에 적합한 데이터 세트로 변환합니다. 빠른 반복 주기와 함께 AI 로봇 훈련을 위한 방대한 양의 고품질 데이터를 제공합니다. 이러한 기술 파이프라인은 원시 데이터에서 실제 로봇으로 구현되는 과정을 단축합니다.
3. 주요 탐색 영역
(1) 암호화 기술과 로봇의 통합
암호화는 신뢰할 수 없는 당사자들이 로봇 네트워크의 효율성을 개선하도록 유도할 수 있습니다. 위에서 언급한 핵심 영역을 바탕으로, 암호화는 도킹 인프라, 지연 시간 최적화, 데이터 수집이라는 세 가지 측면에서 효율성을 향상시킬 수 있다고 생각합니다.
분산형 물리 인프라 네트워크(DePIN)는 충전 인프라에 혁명을 일으킬 것으로 예상됩니다. 인간형 로봇이 자동차처럼 전 세계를 누비게 될 때, 충전소는 주유소만큼 접근성이 높아야 합니다. 중앙 집중형 네트워크는 막대한 초기 투자가 필요한 반면, DePIN은 노드 운영자들에게 비용을 분산시켜 충전 시설을 더 많은 지역으로 빠르게 확장할 수 있도록 합니다.
DePIN은 분산 인프라를 활용하여 원격 제어 지연 시간을 최적화할 수도 있습니다. 지리적으로 분산된 엣지 노드 컴퓨팅 리소스를 통합함으로써 원격 제어 명령은 로컬 또는 가장 가까운 노드에서 처리될 수 있으며, 이를 통해 데이터 전송 거리를 최소화하고 통신 지연 시간을 크게 단축할 수 있습니다. 그러나 현재 DePIN 프로젝트는 주로 분산 스토리지, 콘텐츠 배포, 대역폭 공유에 중점을 두고 있습니다. 일부 프로젝트는 스트리밍 미디어나 사물 인터넷(IoT) 분야에서 엣지 컴퓨팅의 이점을 보여주지만, 로봇 공학이나 원격 제어 분야로 확장된 사례는 아직 없습니다.
원격 제어는 데이터 수집에 가장 유망한 방법이지만, 중앙 집중화된 기관이 데이터 수집을 위해 전문가를 고용하는 데는 막대한 비용이 소요됩니다. DePIN은 암호화 토큰을 사용하여 제3자가 원격 제어 데이터를 제공하도록 유도함으로써 이 문제를 해결합니다. Reborn 프로젝트는 원격 운영자들의 글로벌 네트워크를 구축하고, 그들의 기여를 토큰화된 디지털 자산으로 전환하며, 허가 없이 탈중앙화된 시스템을 구축합니다. 참여자는 혜택을 얻을 수 있을 뿐만 아니라 거버넌스에 참여하고 AGI 로봇 훈련을 지원할 수도 있습니다.
(2) 안전은 항상 핵심 관심사입니다
로봇공학의 궁극적인 목표는 완전한 자율성을 달성하는 것이지만, 영화 터미네이터 시리즈가 경고하듯이, 인간이 가장 보고 싶어 하지 않는 것은 자율성이 로봇을 공격 무기로 만드는 것입니다. 대규모 언어 모델의 안전성은 주목을 받고 있으며, 이러한 모델이 물리적 행동을 취할 수 있는 능력을 갖추게 되면 로봇의 안전은 사회적 수용의 핵심 전제 조건이 됩니다.
경제적 안정은 번영하는 로봇 생태계의 핵심 요소 중 하나입니다. 이 분야 기업인 오픈마인드(OpenMind)는 암호화 증명을 사용하여 장치 신원을 인증하고, 물리적 존재를 확인하고, 자원을 확보하는 분산형 머신 조정 계층인 FABRIC을 개발하고 있습니다. 단순한 작업 시장 관리와 달리, FABRIC은 로봇이 중앙 집중식 중개자에 의존하지 않고도 신원 정보, 지리적 위치 및 행동 기록을 독립적으로 증명할 수 있도록 합니다.
행동 제약과 신원 인증은 온체인 메커니즘을 통해 시행되어 누구나 규정 준수 여부를 감사할 수 있도록 보장합니다. 안전 기준, 품질 요건 및 지역 규정을 충족하는 로봇은 보상을 받고, 위반자는 처벌 또는 자격 박탈을 받게 되므로 자율 기계 네트워크의 책임 및 신뢰 메커니즘이 확립됩니다.
제3자 리스테이킹 네트워크(예: 심비오틱)도 동등한 수준의 보안을 제공할 수 있습니다. 페널티 매개변수 시스템은 아직 개선이 필요하지만, 관련 기술은 이미 실용화 단계에 접어들었습니다. 업계 보안 지침이 곧 마련될 것으로 예상되며, 페널티 매개변수는 이러한 지침에 따라 모델링될 것입니다.
구현 예:
- 로봇 회사가 Symbiotic 네트워크에 가입했습니다.
- 검증 가능한 페널티 매개변수 설정(예: "2500뉴턴을 초과하는 인간의 접촉력 적용")
- 스테이커는 봇이 매개변수를 준수하는지 확인하기 위해 보증금을 제공합니다.
- 위반 시, 보증금은 피해자에 대한 보상으로 사용됩니다.
이 모델은 기업이 보안을 최우선으로 생각하도록 유도할 뿐만 아니라, 기금 풀의 보험 메커니즘을 통해 소비자 수용을 촉진합니다.
로봇공학 분야에 대한 Symbiotic 팀의 통찰력은 다음과 같습니다.
심바이오틱 유니버설 스테이킹 프레임워크(Symbiotic Universal Staking Framework)는 공유 모델이든 독립 모델이든 경제적 보안 보증이 필요한 모든 영역으로 스테이킹 개념을 확장하는 것을 목표로 합니다. 적용 시나리오는 보험부터 로봇 공학까지 다양하며, 특정 사례에 맞춰 구체적인 설계가 필요합니다. 예를 들어, 로봇 공학 네트워크는 심바이오틱 프레임워크를 기반으로 완전히 구축될 수 있으며, 이를 통해 이해관계자는 네트워크 무결성에 대한 경제적 보장을 제공할 수 있습니다.
4. 로봇 기술 스택의 격차 메우기
OpenAI는 AI 대중화를 촉진했지만, ChatGPT 시대를 위한 토대는 이미 마련되었습니다. 클라우드 서비스는 모델의 로컬 컴퓨팅 성능 의존성을 해소했고, Huggingface는 모델을 오픈 소스로 공개했으며, Kaggle은 AI 엔지니어를 위한 실험 플랫폼을 제공했습니다. 이러한 점진적인 혁신은 AI 대중화에 크게 기여했습니다.
AI와 달리 로봇 분야는 자금이 부족하면 시작하기 어렵습니다. 로봇의 대중화를 위해서는 개발 문턱을 AI 애플리케이션 개발과 같은 수준으로 낮춰 편의성을 높여야 합니다. 자금 조달 방식, 평가 시스템, 교육 생태계 등 세 가지 측면에서 개선의 여지가 있다고 생각합니다.
로봇 공학 분야에서 자금 조달은 골칫거리입니다. 컴퓨터 프로그램을 개발하려면 컴퓨터와 클라우드 컴퓨팅 리소스만 있으면 되지만, 완벽하게 작동하는 로봇을 제작하려면 모터, 센서, 배터리와 같은 하드웨어를 구매해야 하며, 비용은 10만 달러를 쉽게 넘을 수 있습니다. 이러한 하드웨어적인 특성 때문에 로봇 개발은 AI보다 유연성이 떨어지고 비용도 더 많이 듭니다.
실제 환경에서 로봇을 평가하는 인프라는 아직 초기 단계에 있습니다. AI 분야에서는 명확한 손실 함수 시스템이 구축되었으며, 테스트는 완전히 가상화될 수 있습니다. 그러나 우수한 가상 전략을 실제 환경에서 효과적인 솔루션으로 바로 전환할 수는 없습니다. 로봇은 반복적인 최적화를 달성하기 위해 다양한 실제 환경에서 자율 전략을 테스트할 수 있는 평가 시스템이 필요합니다.
이러한 인프라가 성숙되면 인재가 유입되고, 휴머노이드 로봇은 웹 2.0 시대의 폭발적인 성장을 반복할 것입니다. 암호화폐 로봇 기업 오픈마인드(OpenMind)는 이러한 방향으로 나아가고 있습니다. 오픈소스 프로젝트 OM1("로봇을 위한 안드로이드")은 원시 하드웨어를 경제적으로 인식하고 업그레이드 가능한 지능형 에이전트로 변환합니다. 비전, 언어 및 동작 계획 모듈은 휴대폰 앱처럼 플러그 앤 플레이 방식으로 사용할 수 있으며, 모든 추론 단계는 쉬운 영어로 제공되어 운영자가 펌웨어를 건드리지 않고도 동작을 감사하거나 조정할 수 있습니다. 이러한 자연어 추론 기능은 새로운 세대의 인재가 로봇 분야에 원활하게 진입할 수 있도록 지원하며, 오픈소스 운동이 AI를 가속화했던 것처럼 로봇 혁명에 불을 지필 개방형 플랫폼을 향한 중요한 발걸음을 내딛게 합니다.

인재 밀도는 산업의 미래를 결정합니다. 체계적이고 포괄적인 교육 시스템은 로봇 공학 분야의 인재 양성에 필수적입니다. 오픈마인드(OpenMind)의 나스닥 상장은 지능형 기계가 금융 혁신과 체육 교육 모두에 참여하는 새로운 시대의 시작을 알립니다. 오픈마인드와 로보스토어(Robostore)는 미국 K-12 공립학교에 유니트리(Unitree) G1 휴머노이드 로봇을 기반으로 한 최초의 교양 과정을 개설한다고 공동 발표했습니다. 이 과정은 플랫폼에 구애받지 않고 다양한 로봇 형태에 맞게 조정 가능하며, 학생들에게 실제적인 운영 경험을 제공합니다. 이러한 긍정적인 신호는 향후 몇 년간 로봇 공학 교육 자원이 AI 분야와 비견될 만큼 풍부해질 것이라는 우리의 판단을 뒷받침합니다.
5. 미래 전망
시각-언어-행동(VLA) 모델의 혁신과 규모의 경제는 저렴하고 효율적이며 다재다능한 휴머노이드 로봇의 탄생으로 이어졌습니다. 창고 로봇이 소비자 시장으로 확장됨에 따라 안전, 금융 모델, 그리고 평가 시스템이 핵심 연구 분야로 부상하고 있습니다. 우리는 암호화가 안전에 대한 경제적 보장, 충전 인프라 최적화, 그리고 지연 시간 성능 및 데이터 수집 파이프라인 개선이라는 세 가지 경로를 통해 로봇 개발을 주도할 것이라고 확신합니다.
