코드에서 인지까지: 로봇 두뇌의 진화를 1만 단어로 안내하는 가이드

저자: 맷 화이트 , 리눅스 재단 AI 부문 글로벌 최고기술책임자

작성: 펠릭스, PANews

 왕싱싱(유니트리 로보틱스 CEO)과 맷 화이트

몇 주 전 상하이에서 함께 여행하던 친구(뉴스도 잘 읽고 관찰력도 뛰어난 똑똑한 사람이지만 로봇공학에 대해서는 잘 모르는 사람)가 저녁 식사 자리에서 제가 여행 내내 궁금해했던 질문을 했습니다.

"우리가 보는 로봇 개들이 뛰어다니는 모습, 유슈의 사무실 시연 무대에서 쿵푸를 선보이는 인간형 로봇, 옷을 접는 로봇 팔들은 어떻게 작동하는 걸까요? 대규모 언어 모델(LLM)로 구동되는 걸까요? 정확히 어떻게 작동하는 걸까요? 로봇들의 움직임을 제어하는 언어 모델이 있는 걸까요?"

정말 좋은 질문입니다. 솔직히 어느 정도는 맞는 말이지만, 진짜 이야기는 훨씬 더 흥미롭습니다. 소셜 미디어에서 볼 수 있는 봇들은 단순히 껍데기만 있는 ChatGPT가 아닙니다. 여러 계층의 AI가 함께 작동하는 기술 스택을 실행하는 것입니다. 이 스택은 지난 3년 동안 지난 30년 동안보다 훨씬 더 많이 변화했습니다. 언어 모델은 그중 하나일 뿐입니다. 시각 모델, 행동 모델, 행동 트리, 고전적인 제어 루프, 그리고 "월드 모델"이라고 불리는 새로운 시스템들도 중요한 구성 요소입니다. 그리고 "월드 모델"은 아마도 모든 발전 중에서 가장 중요한 부분일 것입니다.

이 글은 처음부터 시작하여 주요 변화들을 차근차근 되짚어보고, 마침내 현재 단계, 즉 로봇이 세상에 반응할 뿐만 아니라 세상을 상상할 수 있게 된 단계에 이르기까지의 과정을 보여주는 긴 글입니다.

파트 1: LLM 이전 시대: 로봇이 아직 소프트웨어에 불과했던 시절

수십 년 동안 로봇을 제작한다는 것은 많은 코드를 작성하는 것을 의미했으며, 그 코드의 거의 대부분은 학습이 필요하지 않았습니다.

전통적인 산업용 로봇은 정교하게 설계된 모듈들을 쌓아 올려 만든 탑과 같은 구조를 가지고 있습니다. 예를 들어 1990년대에 도요타 차체를 용접했던 주황색 로봇 팔이나 2000년대 초 보스턴 다이내믹스의 빅독(BigDog) 등이 있습니다.

인식: 카메라 영상을 필터링하고, 에지 검출을 수행하며, 기하학적 매칭을 사용하여 공작물의 위치를 식별합니다.
상태 추정: 휠 엔코더, 자이로스코프 및 가속도계를 결합(센서 융합)하여 로봇의 위치와 속도를 결정합니다.
계획 단계: 목표 자세가 주어졌을 때, A* 또는 RRT와 같은 알고리즘을 사용하여 알려진 지도에서 충돌 없는 경로를 계산합니다.
제어: 가장 기본적인 수준에서 PID 컨트롤러는 경로를 따라가도록 모터 토크를 초당 수백 또는 수천 번 조정합니다.

이러한 계층 구조는 일반적으로 서로 다른 연구실의 여러 사람이 작성하고 매우 신중하게 조합합니다. "컵이 빨간색이면 집어 들고, 그렇지 않으면 기다려라"와 같은 동작은 상태 기계 또는 동작 트리, 즉 로봇의 단계별 실행 순서도로 인코딩됩니다.

이 방법의 장점은 명백합니다. 예측 가능하고 안전 기준을 충족합니다. 바로 이러한 이유로 귀하의 차량에는 효과적인 ABS(잠금 방지 제동 시스템)가 장착되어 있습니다.

단점 또한 명백합니다. 이러한 로봇은 엔지니어가 구상한 시나리오 내에서만 지능을 발휘할 수 있습니다. 새로운 공장, 새로운 조명 조건, 또는 새로운 컵 색깔에 노출되면 제대로 작동하지 못할 것입니다. 일반화 능력은 사실상 전무합니다.

두 번째: 머신 러닝은 조용히 개입합니다.

2010년대에 들어서면서 딥러닝은 인지 계층의 문제를 해결하기 시작했습니다. ImageNet 이미지 분류 작업에서 인간을 능가했던 합성곱 신경망(CNN)을 재학습시켜 물체의 손잡이 부분을 감지하거나, 방 안의 가구를 분할하거나, 사람의 자세를 인식할 수 있게 되었습니다. 갑자기 기술 스택 최상단의 "인지" 계층을 더 이상 수동으로 설계할 필요 없이 직접 학습시킬 수 있게 된 것입니다.

이후 학습 메커니즘은 "제어" 계층으로 확산되었습니다. UC 버클리, 딥마인드, 오픈AI의 연구원들은 강화 학습(로봇 에이전트가 시뮬레이션 환경에서 수백만 번 시도하고 효과적인 행동을 강화하는 방식)을 통해 놀라울 정도로 능숙한 걸음걸이, 손으로 물체를 조작하는 능력(2019년 오픈AI의 한 손으로 루빅 큐브를 푸는 것은 획기적인 성과였습니다), 그리고 다양한 지형에 적응하는 움직임 전략을 구현할 수 있음을 보여주었습니다.

또 다른 병행 연구 방향은 모방 학습, 즉 행동 복제라고도 불리는 분야입니다. 이는 인간이 로봇을 원격으로 제어하여 작업을 완료하려는 수백 번의 시도를 기록한 다음, 로봇이 관찰한 내용을 바탕으로 인간이 어떤 행동을 취할지 예측하도록 신경망을 훈련시키는 것입니다.

핵심은 학습된 각 전략이 너무 제한적이라는 점입니다. 빨간색 블록을 집도록 신경망을 훈련시켜도 노란색 컵을 다루는 방법은 알지 못합니다. 잔디밭을 걷도록 훈련시켜도 타일 바닥에서는 넘어질 것입니다. 일반화 능력은 여전히 해결해야 할 중요한 문제입니다.

주목할 만한 점은 이 시기에 등장한 핵심 인프라가 오늘날 거의 모든 것의 기반이 되고 있다는 것입니다. 바로 로봇 운영 체제(ROS, 2007년 11월 최초 출시)입니다. ROS는 윈도우나 리눅스와 같은 전통적인 의미의 운영 체제가 아니라, 범용 로봇 파이프라인 시스템인 미들웨어 프레임워크입니다. ROS를 통해 "카메라 노드", "내비게이션 노드", "로봇 팔 제어 노드" 등 수십 개의 노드가 공유 버스를 통해 메시지를 발행하고 구독할 수 있습니다.

현재 버전의 ROS2는 스탠포드 대학교 연구실부터 중국의 휴머노이드 로봇 스타트업에 이르기까지 전 세계 대다수의 과학 및 상업용 로봇의 핵심 운영 체제에서 실행됩니다. 사람들이 로봇의 "운영 체제"라고 말할 때, 거의 항상 ROS2와 그 위에서 실행되는 다양한 인식, 계획 및 제어 소프트웨어 패키지를 의미합니다.

 ROS2: 운영 체제가 아니라, 독립적인 로봇 소프트웨어들이 서로 통신할 수 있도록 해주는 범용 통로입니다.

III: 로봇공학 분야에서의 LLM 응용

그렇게 ChatGPT가 탄생했습니다.

갑자기 LLM(제한적 학습 모델)과 같은 것이 등장했습니다. 이 모델은 간단한 영어 지시문을 읽고, 여러 단계의 추론을 수행하고, 코드를 작성하고, 함수를 호출할 수 있었습니다. 로봇 공학 전문가들은 이것이 수년간 해결하기 위해 고심해 왔던 문제의 핵심이라는 것을 거의 즉시 깨달았습니다. 가정이나 사무실에서 로봇이 유용한 작업을 수행하도록 하는 데 가장 어려운 부분은 종종 모터 제어가 아니라 인간과 로봇 간의 상호 작용입니다. 즉, 인간은 로봇에게 무엇을 해야 할지 어떻게 지시하고, 로봇은 그 목표를 자신이 이미 알고 있는 기본 동작으로 어떻게 분해해야 할까요?

LLM을 로봇공학에 적용한 초기 연구에서는 언어 모델을 ROS 기반의 자연어 컴파일러로 취급했습니다. 그 패턴은 다음과 같았습니다.

사용자는 영어로 "주방 카운터에서 커피잔을 가져와 내 테이블 위에 놓아주세요."라고 말했습니다.
LLM은 로봇이 사용할 수 있는 기본 기술 목록을 기반으로 계획을 생성합니다. 이 목록은 함수 호출 시퀀스, 상태 머신 또는 XML로 작성된 동작 트리일 수 있습니다.
ROS2 노드는 계획을 단계별로 실행합니다. 단계가 실패하면 실패 정보가 LLM에 보고되어 LLM이 다시 계획을 세울 수 있도록 합니다.

2022년 구글의 SayCan 프로젝트는 이러한 아이디어를 매우 간결하게 구현한 사례입니다. LLM(Learning Language Model)은 필요한 기술을 제안하고, 독립적인 "가용성" 모델은 각 기술의 현재 성공 확률을 평가하며, 로봇은 가장 높은 종합 점수를 받은 기술 조합을 선택합니다. 화웨이 연구소가 주도하는 ROS-LLM, ROSGPT, ROSA와 같은 오픈 소스 프레임워크들이 이러한 모델을 발전시켜 왔습니다.

이는 분명 상당한 도약입니다. 이제 로봇에게 "테이블을 닦고, 재활용품을 파란색 쓰레기통에 넣어"라고 말하면 로봇은 합리적인 행동들을 시도할 것입니다. 하지만 여전히 몇 가지 문제점이 남아 있습니다. 언어 모델은 아직 계획 단계에 머물러 있습니다. 실제 행동 명령은 여전히 정교하게 설계되거나 특별히 훈련된 제어기에 의해 생성됩니다. 언어 모델은 단지 지능형 스케줄러일 뿐, 실제 주행을 담당하지는 않습니다.

4. 시각-언어-동작 모델(VLA): 뇌가 로봇을 조종하기 시작할 때

 베이징에 있는 갈봇의 자동화 약국에서 키넌 XMAN-R1 로봇이 선반에서 약을 꺼내고 있습니다. 이 로봇의 가격은 단 10만 달러입니다.

다음 도약은 훨씬 더 어렵고 중요할 것입니다. 연구진은 더욱 야심찬 질문을 제기했습니다. 모델이 단순히 계획을 세우는 것을 넘어 동작 명령을 직접 생성할 수 있다면 어떨까요? 카메라 이미지와 음성 명령을 신경망에 직접 입력하면 다음 밀리초 동안의 관절 움직임을 얻을 수 있다면 어떨까요?

이것이 바로 시각-언어-동작(VLA) 모델입니다. 현재 휴머노이드 로봇과 사족보행 로봇 분야에서 주류 패러다임으로 자리 잡았습니다.

널리 알려진 최초의 시각-언어 로봇은 2023년 구글 딥마인드에서 출시한 RT-2입니다. RT-2의 독창성은 이미지 설명 및 질문 답변 학습이 완료된 대규모 시각-언어 모델을 활용하고, 로봇 시연 데이터를 사용하여 지속적으로 학습시키면서 로봇의 동작을 예측해야 할 또 다른 유형의 레이블로 취급하는 데 있습니다. 원래 "고양이가 쿠션 위에 앉아 있다"라는 문장을 출력할 수 있었던 동일한 신경망이 이제는 "오른쪽 발을 앞으로 3cm 움직이고, 발을 오므리고, 5cm 들어 올린다"와 같은 일련의 동작을 인코딩하는 레이블을 출력할 수 있게 되었습니다. 추론과 동작 모두 동일한 모델 내에서 이루어집니다.

그러던 중 2024년 중반, 스탠포드 대학교 연구팀이 70억 개의 파라미터를 가진 오픈소스 VLA 모델인 OpenVLA를 공개했습니다. 이 모델은 Open X-Embodiment 데이터셋으로 학습되었으며, 21개 연구소에서 수집한 100만 개 이상의 학습 영상 클립과 22가지 로봇 본체를 포함하고 있었습니다. 이는 구글 외의 누구든 범용 로봇 모델을 다운로드하여 수정할 수 있게 된 최초의 사례였으며, 이 분야 전체를 하룻밤 사이에 완전히 바꿔놓았습니다.

오늘날 선도적인 VLA의 수는 적지만, 그 발전 속도는 매우 빠릅니다.

물리적 지능에서 π0 및 π0.5는 뛰어난 작업 적응력을 나타냅니다.
NVIDIA Isaac GR00T N1.7: 개방형 가중치를 제공하며, 상업적으로 라이선스가 부여되었고, 휴머노이드 로봇용으로 설계되었으며, 현재 대부분의 중국 하드웨어 회사들이 자체 데이터를 이용한 사후 학습에 사용하고 있는 모델입니다.
Figure AI의 Helix와 최신 Helix-02: 독점 기술이지만, 구조적으로 중요한 의미를 지닙니다.
AgiBot의 Genie Envisioner: 중국식 세계 모델을 기반으로 한 플랫폼.
SmolVLA, NORA, ACoT-VLA, CogACT: 학계에서 점점 더 많은 가상 학습 모델(VLA)이 등장하여 다양한 설계 방향을 탐구하고 있습니다.

VLA의 작동 원리 (수학 공식 없이)

VLA는 세 개의 입력 신호를 하나의 출력 신호로 병합하는 것으로 생각할 수 있습니다.

첫 번째 데이터 스트림은 시각 데이터입니다. RGB 카메라(때로는 심도 센서 또는 LiDAR)와 손가락 끝에 있는 촉각 센서에서 얻은 데이터는 시각 인코더(일반적으로 DINOv2 또는 SigLIP와 같은 Transformer 모델)에 의해 처리됩니다. 이 인코더는 각 이미지를 로봇이 보고 있는 내용을 요약하는 수백 개의 "시각 토큰"으로 압축합니다.

두 번째 데이터 스트림은 언어입니다. 사용자의 명령("드라이버를 건네주세요")은 ChatGPT에서와 마찬가지로 토큰으로 변환됩니다.

이 두 데이터 스트림은 연결되어 Transformer "스템"(일반적으로 Qwen3 또는 Llama와 같은 소규모 오픈 소스 언어 모델)에 입력됩니다. 이 스템은 추론을 담당하며, 입력받은 정보와 입력받은 정보를 결합합니다.

세 번째 데이터 흐름은 다른 쪽 끝에서 흘러나오는 액션입니다. 바로 이 지점에서 다양한 아키텍처 설계 방식이 갈라집니다.

개별 동작 토큰: 모델은 ChatGPT가 단어를 생성하는 방식과 유사하게 관절 각도 또는 엔드 이펙터 위치로 디코딩할 수 있는 토큰을 직접 생성합니다. 이 방법은 간단하지만 높은 빈도로 실행할 경우 끊김 현상이 발생할 수 있습니다.
흐름 일치 모션 헤드: 별도의 소형 네트워크가 백본의 출력을 받아 노이즈를 제거하고, 이미지 확산 모델과 유사하게 부드러운 관절 위치 궤적을 생성합니다. 단, 움직임을 생성한다는 점이 다릅니다. π0이 바로 이러한 역할을 하며, 더욱 부드럽고 자연스러운 움직임을 만들어냅니다.
액션 블록: 다음 단일 명령어를 예측하는 대신, 다음 0.5초 동안의 명령어 세트를 한 번에 예측하여 지터를 완화합니다.

 VLA 모델에서는 두 개의 입력 스트림이 입력되고, 동작 명령이 출력되며, 추론과 동작이 단일 네트워크로 융합됩니다.

이것이 바로 핵심적인 아키텍처적 변화입니다. 추론과 행동이 더 이상 분리되지 않는다는 것입니다. 신경망에 컵을 인식하도록 가르치면 컵을 잡는 방법도 함께 가르칠 수 있습니다. 바로 이러한 결합 덕분에 가상 학습 알고리즘(VLA)은 이전의 알고리즘들이 할 수 없었던 일반화 능력을 갖추게 됩니다.

5: 이중 두뇌 전략: LLM과 VLA의 협력 방식

마케팅에서 명시적으로 설명되는 경우가 드문 중요한 사실이 있습니다. 오늘날 최고의 성능을 자랑하는 휴머노이드 로봇은 단일 VLA 시스템을 사용하는 것이 아니라, 서로 다른 속도로 작동하며 통신하는 두 개의 모델을 사용합니다. 이는 때때로 다니엘 카네만의 심리학적 틀에서 차용한 이중 시스템 또는 시스템 1/시스템 2 아키텍처라고 불립니다. 카네만은 인간이 빠르고 직관적인 두뇌와 느리고 신중한 사고를 하는 두뇌를 가지고 있다고 주장합니다.

Figure AI의 Helix가 이 디자인을 고전으로 만들었고, 이제 이 디자인(및 그 변형)은 거의 모든 곳에서 찾아볼 수 있습니다. 특히 NVIDIA의 GR00T N1.7과 대부분의 중국산 휴머노이드 로봇이 이 디자인을 사용하고 있다는 점이 주목할 만합니다. 구조는 다음과 같습니다.

시스템 2(S2): 느린 사고의 두뇌. 약 70억 개의 매개변수를 가진 시각-언어 모델로, 초당 약 7~9회(즉, 7~9Hz)의 빈도로 작동합니다. 이 시스템의 역할은 장면을 관찰하고, 지시를 분석하고, 여러 단계의 추론(예: "그릇이 시리얼 상자 뒤에 있으니 먼저 상자를 옮겨야 해")을 수행하고, 일반적으로 단어 자체가 아닌 간결한 내부 벡터 집합으로 표현되는 고차원적인 의도를 전달하는 것입니다.
시스템 1(S1): 빠른 반응을 담당하는 두뇌. 약 8천만 개의 매개변수를 가진 훨씬 작은 시각-운동 전략 모델로, 200Hz의 속도로 작동합니다. S2로부터 의도 벡터와 최신 센서 데이터를 수신하여 연속적인 관절 명령을 출력합니다. 실제로 "생각"하는 것이 아니라 단순히 반응하는 것입니다.

최근 Figure의 Helix-02에는 시스템 0(System 0)이 추가되었습니다. 양이음 시스템 아래에 위치한 이 시스템은 제3의 인지층이 아니라 반사 작용에 기반한 레이어입니다. 1kHz의 주파수로 작동하는 이 네트워크는 1천만 개의 파라미터를 가지고 있으며, 기본적인 균형 유지와 전반적인 신체 조정을 담당합니다. 이를 통해 10만 줄이 넘는 기존의 C++ 모션 제어 코드를 신경 제어기로 대체했습니다. 시스템 0은 마치 후천적으로 생성된 척수와 같다고 생각할 수 있습니다. 추론이나 계획을 담당하지 않고, 단지 신체를 똑바로 세우고 균형을 유지하는 역할을 하며, 사고는 위쪽의 양이음 시스템에서 이루어집니다.

 현대 휴머노이드 로봇의 이중 두뇌 구조는 시스템 2가 느리게 생각하고 시스템 1이 빠르게 반응하며, 그 아래에는 균형 유지, 촉각 접촉 및 전반적인 조정을 위한 시스템 0 반사층이 있습니다.

이러한 차이는 물리적 한계에서 비롯됩니다. 대형 VLA의 작동 속도인 200밀리초에 한 번씩만 동작 명령이 내려진다면 로봇의 움직임은 마치 물속에서 움직이는 것처럼 느려질 것입니다. 동작 명령은 제어하는 관절의 자연스러운 진동보다 빠르게 업데이트되어야 하므로 초당 수백 또는 수천 번의 업데이트가 필요합니다. 70억 개의 매개변수를 가진 어떤 트랜스포머 모델도 배터리로 작동하는 로봇으로는 그 속도로 움직일 수 없습니다.

따라서 인지 작업은 두 부분으로 나뉩니다. 크고 느린 모델은 사고를 담당하고, 작고 빠른 모델은 행동을 담당합니다. 이들은 영어로 소통하는 것이 아니라 학습된 잠재 벡터를 통해 소통합니다. 느린 모델은 추상적인 목표를 제시하고, 빠른 모델은 그 목표를 해석하는 방법을 알고 있습니다.

여섯 번째: 클라우드 컴퓨팅, 엣지 컴퓨팅 및 "두뇌"의 배치.

이 모든 계산은 정확히 어디에서 이루어지나요?

오늘날 로봇 공학 팀들 사이에는 안전에 필수적인 핵심 제어 루프가 로컬에서 작동해야 한다는 강력하고 거의 이념적인 합의가 형성되었습니다. 여기에는 두 가지 이유가 있습니다.

지연 시간. 낙관적으로 추정하더라도 Wi-Fi 또는 셀룰러 네트워크의 왕복 시간은 30~80밀리초입니다. 하지만 동작 명령은 1~5밀리초마다 업데이트되어야 합니다. 이러한 네트워크 루프는 제대로 작동할 수 없습니다.

신뢰성. 로봇은 공장, 창고, 주방, 병원 등 다양한 장소에서 작동합니다. 네트워크 연결은 언제든지 끊어질 수 있습니다. 로봇이 Wi-Fi 연결이 끊어지자마자 작동을 멈춘다면 안전상의 위험이 될 수 있습니다.

따라서 현대적인 분류는 대략 다음과 같습니다.

온보드(로컬) 방식 은 NVIDIA Jetson Thor 또는 AGX Thor 모듈과 유사한 장치(약 2,000 TFLOPS, 128GB 메모리, 40~130W TDP)에서 실행됩니다.

S0/S1의 모든 기능: 균형, 움직임 및 미세 운동 조절.
VLA(시스템 2) 자체는 하드웨어 한계에 적응하기 위해 FP8 또는 FP4 형식으로 양자화되는 추세입니다. 이제 20억에서 70억 개의 파라미터를 가진 모델도 기기에서 실행할 수 있습니다.
감지, 센서 융합 및 보안 모니터링 프로그램은 다른 모든 작업에도 적용될 수 있습니다.

클라우드 또는 원격 서버(존재하는 경우):

대화형 인터페이스("로봇아, 저녁으로 뭘 만들까?"): 이러한 인터페이스는 지연을 허용할 수 있습니다.
클러스터 학습: 수천 대의 로봇이 원격으로 작동 데이터를 서버로 전송하면, 서버는 이를 집계하여 모델의 차기 버전을 구축합니다.
대규모의 장기적인 계획이 필요하며, 개척지 규모의 모델을 채택할 수도 있다.
운영자 대시보드 및 모니터링.

또한, 미들웨어 계층이 점차 확대되고 있는데, 이는 공장이나 창고에 위치한 로컬 엣지 서버로, 수 밀리초 범위의 지연 시간으로 로컬 네트워크를 통해 로봇 클러스터와 통신합니다. 이 계층에는 개별 로봇이 직접 관리할 필요가 없는 고수준 스케줄링 작업을 수행하는 대형 LLM(로봇 운영 관리 시스템)이 배포될 수 있습니다.

중국의 휴머노이드 로봇 열풍은 이러한 가정에 기반을 두고 있습니다. 유니트리(Unitree), 아기봇(AgiBot), 아이언(IRON), 푸리에(Fourier), 엔진AI(EngineAI) 등이 그 예입니다. 이들 로봇은 자체 컴퓨팅 성능(주로 젯슨(Jetson) 칩을 사용하며, 화웨이 어센드(Huawei Ascend)와 같은 국산 칩도 사용)을 갖추고 있습니다. 클라우드는 제어 루프보다는 군집 학습 및 대화형 인터페이스에 활용됩니다.

 로봇의 두뇌가 실제로 작동하는 위치는 다음과 같습니다. 안전에 중요한 작업은 로컬에서 실행되고, 클라우드는 대기해도 되는 작업을 처리합니다.

7. 오픈소스 모델이 조용히 주목받는 이유는 무엇일까요?

데모 영상만 보면 이 분야가 자금력이 풍부한 몇몇 미국 기업들에 의해 장악되었다고 생각할 수도 있습니다. 하지만 현실은 훨씬 더 복잡합니다. 물리 AI의 발전 속도는 누구나 다운로드하고 미세 조정할 수 있는 오픈 소스 가중치 모델에 의해 크게 좌우됩니다.

다음 모델들은 비록 그 수가 적지만 매우 중요한 의미를 지닙니다.

OpenVLA(스탠포드 대학교): 최초의 오픈 소스 7B 범용 로봇 모델.
NVIDIA Isaac GR00T(N1, N1.5, N1.7): 오픈 소스 가중치가 곧 공개될 예정이며, 상용 라이선스 출시도 임박했습니다. 이 모델은 수만 시간 분량의 인간 시점 영상으로 학습되었습니다. GR00T N1.7은 2026년 3월에 출시될 예정이며, 출시 시점부터 휴머노이드 로봇을 보유한 모든 사용자는 이 모델의 듀얼 시스템 아키텍처를 무료로 이용할 수 있게 됩니다.
물리 지능에서의 π0: 연구를 위한 가중치를 공개하십시오.
NVIDIA Cosmos: 오픈 월드 게임의 기반이 되는 모델.
AgiBot World: 상하이에 본사를 둔 스타트업에서 개발한 방대한 오픈 소스 데이터 세트로, 원격 제어 휴머노이드 로봇 시연 영상을 제공합니다.
Hugging Face의 LeRobot은 앞서 언급한 모든 플랫폼의 허브가 된 오픈 라이브러리입니다.
Mimic Robotics의 mimic-video는 기존 VLA보다 샘플 생성 효율이 10배 더 높은 오픈 소스 비디오 액션 모델입니다.

이는 두 가지 이유에서 중요합니다. 첫째, 로봇 스타트업들이 더 이상 기본 모델을 사전 학습하는 데 수천만 달러를 투자할 필요가 없습니다. GR00T나 π0 같은 모델을 가져와서 자체 로봇에서 얻은 데이터를 활용해 사후 학습을 진행할 수 있습니다. 유니트리 로보틱스, 제플린, 부스터, 갈봇을 비롯한 수십 개의 소규모 중국 기업들이 바로 그렇게 하고 있습니다. 직원 수가 수백 명에 불과한 회사가 걷고, 말하고, 옷을 접을 수 있는 휴머노이드 로봇을 만들 수 있는 이유도 바로 오픈 소스 기술 덕분입니다.

둘째로, 오픈소스 모델만이 보안 문제를 해결할 수 있는 유일한 현실적인 방법입니다. 공장 내 로봇에 완전히 폐쇄된 소스 모델이 탑재되어 추론 논리를 외부에서 전혀 파악할 수 없다면, 규제 측면에서 심각한 문제가 발생할 것입니다. 오픈소스 모델을 사용하면 감사자, 연구원, 운영자가 로봇이 실제로 어떤 데이터로 학습되었는지 면밀히 검토할 수 있습니다.

8. 아직 해결되지 않은 문제는 무엇입니까?

로봇 시연 영상을 충분히 보셨다면, 로봇 오작동 영상도 많이 보셨을 겁니다. 최신 LLM+VLA 로봇은 인상적이지만, 상당한 한계점도 가지고 있습니다. 다음은 그 문제점들 중 일부입니다.

작업은 중간에 재개될 수 있습니다. VLA는 예상치 못한 변화에 대처하는 능력이 기존 기술보다 뛰어납니다. 그러나 실제로 문제가 발생했을 때(예: 물체 파지 오류, 물체 굴러떨어짐, 작업자가 작업 영역에 들어오는 경우) 다시 정상 궤도로 돌아오는 것은 여전히 약점입니다. 로봇이 실패한 동작을 반복할 수 있기 때문입니다.
샘플 효율성 측면에서 보면, VLA를 처음부터 학습시키려면 수만 시간의 원격 운영 데이터가 필요합니다. 반면, 사람은 새로운 도구를 사용하는 방법을 몇 분 만에 익힐 수 있습니다. 이러한 효율성 격차는 엄청납니다.
개체 간 일반화의 한계. 스탠포드 연구실의 프랑카 로봇 팔로 훈련된 모델을 선전 창고의 유니트리 휴머노이드 로봇에 완벽하게 적용할 수는 없습니다. 두 로봇은 물리적 형태가 다르기 때문입니다.
장기적인 과제. 30~60초 이상 지속적인 동작이 필요하고 여러 하위 목표를 포함하는 모든 과제는 목표에서 벗어나기 쉽습니다. "나에게 아침 식사를 만들어 줘"와 같은 과제는 항상 달성하기 어려워 보일 것입니다.
기본적인 물리 법칙입니다. VLA는 이해가 아닌 모방을 통해 훈련되었습니다. 유리잔이 넘어졌을 때 물이 쏟아지는 원리를 진정으로 이해하지 못합니다. 단지 몇 가지 사례를 보고 패턴 매칭을 통해 다음에 무슨 일이 일어날지 예측할 뿐입니다.
공간 추론 능력. 이들은 멀티모달 능력을 갖추고 있음에도 불구하고, "장애물을 통과하는 대신 피해 가는 것"이나 "물건들이 넘어지지 않도록 쌓는 것"과 같은 작업에서는 놀랍도록 약한 모습을 보입니다.

이러한 일련의 약점들로 인해 결국 업계는 완전히 다른 모델에 투자하기 시작했습니다.

9: 세계 모델

로봇에게 행동을 예측하는 것이 아니라, 그 행동의 결과를 예측하도록 훈련시킨다면 어떤 일이 벌어질지 상상해 봅시다.

월드 모델은 현재 상태(일반적으로 비디오 클립 또는 일련의 프레임)와 미리 설정된 동작을 기반으로 다음에 세상이 어떻게 보일지 예측하는 신경망의 일종입니다. 간단히 말하면, 핸들이 달린 학습형 비디오 예측기라고 생각하면 됩니다. 카메라 영상의 마지막 1초를 보여주고 "로봇이 팔을 앞으로 10cm 움직일 것이다"라고 지시하면, 다음에 일어날 일을 예측하는 현실적인 영상을 생성할 수 있습니다.

이것이 왜 중요할까요?

세계 모델이 구축되면 로봇은 행동하기 전에 생각할 수 있습니다. 세네 가지의 가능한 수를 미리 계획하고, 각 수의 결과를 예측하고, 점수를 매기고, 최적의 선택을 할 수 있습니다. 이 모든 과정은 모터가 움직이기 전에 이루어집니다. 체스 엔진이 작동하는 방식과 정확히 같습니다. 체스 엔진은 수를 암기하는 것이 아니라 미래를 시뮬레이션하는 것입니다. 이러한 기능은 이전에는 물리 로봇 분야에서 구현할 수 없었는데, 현실 세계의 복잡성을 시뮬레이션할 만큼 정확한 모델이 없었기 때문입니다.

 세계 모델을 통해 로봇은 모터를 작동시키기 전에 최적의 옵션을 시뮬레이션하고, 평가하고, 선택할 수 있습니다.

2026년의 세계 모델은 어떤 모습일까요?

현재 다양한 유형의 첨단 세계 모델이 존재하며, 그 발전 속도는 매우 빠릅니다. 몇 가지 예를 들면 다음과 같습니다.

NVIDIA Cosmos는 Cosmos Predict 2.5(생성형 모델), Cosmos Transfer 2.5(제어 가능한 시뮬레이션 모델), Cosmos Reason 2(로봇 공학용 시각 언어 추론기) 및 최신 Cosmos Policy를 포함하는 개방형 월드 기반 모델 제품군입니다. Cosmos Policy는 월드 모델의 사후 학습을 통해 제어를 위한 동작을 직접 출력하는 기능을 제공합니다. Cosmos는 수만 시간의 GPU 비디오 데이터를 사용하여 학습됩니다(Cosmos Predict 2.5는 이 제품군의 월드 모델입니다).
DeepMind Genie 3: 텍스트 프롬프트를 기반으로 완전히 탐색 가능한 환경을 생성하는 대화형 세계 모델로, 초당 24프레임으로 작동하며 몇 분 동안 안정적으로 실행될 수 있습니다. 원래 게임 환경을 위해 설계되었습니다.
Meta V-JEPA 2: 사전 학습에는 백만 시간 이상의 온라인 비디오가 활용되었고, 이후 동작 조건화 학습에는 단 62시간의 로봇 비디오만 사용되었습니다. 다양한 연구실의 실제 로봇 팔에서 특정 작업 학습 없이도 80%의 무부하(zero-shot) 픽업 및 배치 성공률을 달성했습니다. "JEPA" 방법은 다른 방법들과 구조적으로 차별화됩니다.
DeepMind Dreamer 4는 오프라인 데이터만 사용하고 환경과의 상호작용 없이 마인크래프트에서 다이아몬드를 수집하는 방법을 학습했습니다(2만 단계 작업). 이는 가상 세계에서도 진정한 강화 학습이 가능하다는 것을 입증합니다.
중국 AgiBot의 Genie Envisioner는 3,000시간 이상의 실제 휴머노이드 로봇 조작 영상을 사용하여 학습된 통합 세계 모델 플랫폼입니다. 이 플랫폼은 예측 배치 궤적과 실행 가능한 동작 궤적을 모두 생성할 수 있습니다. AgiBot은 NVIDIA Cosmos Predict 2를 핵심 네트워크로 사용하고 자체 데이터를 활용하여 사후 학습을 수행합니다. 이는 앞서 설명한 "오픈 소스 기술 스택 + 독점 데이터" 모델의 완벽한 예시입니다.
도요타 연구소의 코스모스 기반 세계 모델: 원격 조작 데이터 증강 및 내비게이션용.

 2025-2026년 세계 최고 수준의 모델 6가지는 각각 기계가 물리학을 학습하는 방식에 대한 서로 다른 아이디어를 제시합니다.

10: 대안적 건축 설계, 이 분야는 아직 해결되지 않은 문제입니다.

세계 모델 구축에 대한 단일 표준은 없습니다. 아키텍처에 대한 논쟁은 인공지능 분야에서 가장 흥미로운 논쟁 중 하나이며, 미래 로봇의 가능성에 직접적인 영향을 미칩니다. 다음 세 가지 진영을 주목할 만합니다.

픽셀 수준 비디오 확산(코스모스/소라 학파) : 확산 모델을 사용하여 향후 프레임의 실제 픽셀을 예측합니다. 장점으로는 합성 데이터 생성기 역할을 하여 이전에는 구현된 적 없는 완전히 새로운 로봇 시연을 렌더링할 수 있다는 점이 있습니다. 단점으로는 높은 비용, 물리 법칙을 위반하는 경우, 그리고 실제로는 나타나지 않을 픽셀을 예측하는 데 드는 비용 낭비 등이 있습니다.

JEPA(Joint Embedded Prediction Architecture, 줄여서 LeCun School) : 개별 픽셀을 예측하는 대신, 다음 프레임의 추상적인 표현을 예측합니다. 텍스처 세부 정보는 버리고 장면 내 사물의 의미론적 핵심만 유지합니다. 효율성과 동작에 중요한 요소에 집중하는 것이 장점입니다. 단점은 사용이 복잡하다는 것입니다. V-JEPA, V-JEPA 2, 그리고 새로운 JEPA-VLA 하이브리드 모델들이 이 분야를 연구하고 있습니다.

잠재 행동 세계 모델(Genie/Dreamer 계열): 이 접근 방식은 전체 비디오를 행동 구조를 포착하는 잠재적인 "행동 언어"로 압축하는 방법을 학습합니다. 그런 다음 세계 모델은 다음 잠재적 행동을 기반으로 다음 잠재 상태를 예측하도록 훈련됩니다. 장점은 움직임이 없는 웹 비디오로 훈련한 후 소량의 실제 로봇 데이터를 추가할 수 있다는 것입니다. 단점은 잠재 행동이 인간이 이해하기 어렵기 때문에 보안 분석이 복잡해진다는 것입니다.

 픽셀 확산, JEPA 및 잠재적 조치: 동일한 목표, 세계 모델 구축의 다양한 방식

XI: 세계 모델 기반 로봇의 실제 응용

몇 년 후, 최첨단 휴머노이드 로봇의 아키텍처는 다음과 같은 모습일지도 모릅니다.

VLA는 세계 모델을 가지고 있습니다. 로봇이 새로운 상황에 직면하면 다음과 유사한 동작을 수행합니다.

VLA는 후속 조치를 위한 몇 가지 후보 방안을 제안했습니다(아직 전략 단계입니다).
세계 모델은 각 후보 동작을 포착하여 1~3초 분량의 가상 비디오를 시뮬레이션합니다.
평가자들은 예상되는 결과(컵이 주워졌는지, 무언가가 떨어졌는지, 누군가와 부딪혔는지 등)를 기준으로 결과를 평가합니다.
로봇은 가장 높은 점수를 받은 동작을 선택하고, 그 동작의 첫 번째 부분만 실행합니다.
실제 센서 데이터가 피드백되고, 이 과정이 주기적으로 반복됩니다.

이것은 모델 예측 제어(MPC)라는 기술인데, 로켓이나 쿼드콥터의 안정화에 수년간 사용되어 왔지만, 수동으로 도출한 물리 방정식을 학습된 세계 모델로 대체한다는 점이 특징입니다. 이 기술의 확장성은 누군가가 주방 환경에 대한 나비에-스토크스 방정식을 작성했기 때문이 아니라, 수백만 시간 분량의 비디오 데이터로 사전 학습된 세계 모델 덕분입니다.

그 혜택은 점진적입니다:

복구 기능이 향상되었습니다. 파악 동작이 실패할 경우, 세계 모델은 여러 가지 수정 경로를 예측하고 가장 유망한 경로를 선택할 수 있습니다.
일반화 능력이 향상되었습니다 . 네트워크 비디오로 학습된 세계 모델은 원격 조종 로봇 데이터 세트보다 몇 배나 더 많은 "물리적 현상"을 경험합니다.
장기 계획은 관리하기 쉬워집니다. 현실이 아닌 상상 속에서 계획을 세우세요.
시뮬레이션과 현실 사이의 격차가 줄어들었습니다. 이전에는 Isaac Sim이나 Newton 물리 엔진과 같은 맞춤형 시뮬레이터를 사용하여 훈련하고, 그 훈련 결과를 실제 응용 분야에 적용할 수 있기를 기대해야 했습니다. 하지만 이제는 실제 영상과 일치하는 사전 훈련된 시뮬레이터를 사용하여 훈련할 수 있게 되었습니다. 따라서 격차가 줄어들었습니다.
합성 데이터가 폭발적으로 증가하고 있습니다. 단일 월드 모델로 다양한 조명, 재질, 객체 구성을 고려한 수백만 개의 로봇 궤적을 거의 무료로 생성할 수 있습니다. 이는 해당 분야의 가장 큰 병목 현상 중 하나를 해결합니다.

게다가 중요한 안전상의 이점도 있습니다. 행동의 결과를 시뮬레이션할 수 있는 로봇은 위험한 작업을 거부할 수 있는데, 이는 미리 설정된 규칙 때문이 아니라 미래에 발생할 수 있는 부상의 가능성을 예측하기 때문입니다.

 두 가지 이동 방식: VLA는 보이는 것에 따라 반응하고, 월드 모델 로봇은 움직이기 전에 생각합니다.

12: 알아두면 좋은 것들

핵심 문제는 데이터입니다 . 모델에 데이터를 제공하지 않으면 세상의 모든 아키텍처 혁신은 무용지물입니다. 현재 가장 큰 기술적 병목 현상은 원격 조작(VR 장치를 착용한 사람이 로봇을 꼭두각시처럼 원격으로 조종하는 방식)입니다. 로봇 기업의 경쟁력은 모델 자체보다는 데이터 수집 파이프라인에 점점 더 의존하고 있습니다. AIZ Robotics는 이미 수많은 조작자를 보유한 데이터 웨어하우스를 구축했습니다. NVIDIA GR00T N1.7의 조작성 스케일링 법칙에 따르면, 사람의 1인칭 시점 영상이 많을수록 로봇의 조작성이 직접적이고 예측 가능하게 향상됩니다. 이는 중국이 구조적 이점을 누리는 이유 중 하나이기도 합니다. 데이터 수집에 드는 낮은 인건비, 보다 관대한 배포 환경, 그리고 정부의 적극적인 공급망 관리 등이 그 예입니다.

시뮬레이션은 평행 우주입니다 . NVIDIA의 Isaac Sim, 새로운 오픈 소스 뉴턴 물리 엔진(버전 1.0은 2026년 4월 공식 출시 예정), 그리고 Omniverse 플랫폼을 통해 기업은 로봇을 실제 환경에 배치하지 않고도 수백만 개의 병렬 시뮬레이션 환경에서 훈련시킬 수 있습니다. 겉으로 보기에 "로봇 지능"처럼 보이는 대부분의 기능은 실제로 시뮬레이션 환경에서 개발된 후 하드웨어로 이식되는 것입니다.

경제적 이점이 서서히 드러나고 있습니다 . 유니트리(Unitree)는 2025년에 약 5,500대의 휴머노이드 로봇을 공급했으며, 2026년까지 10,000~20,000대를 공급할 계획입니다. 평균 가격은 2년 만에 85,000달러에서 25,000달러로 떨어졌습니다. 유니트리의 R1은 5,900달러에 판매되고 있으며, 노에틱스(Noetix)의 부미(Bumi)는 1,400달러에 출시되었습니다. 휴머노이드 로봇 하드웨어 가격은 소비자 가전 제품 수준에 근접하고 있지만, 자체 AI 기술은 아직 시연 제품에 비해 뒤처져 있습니다. 이러한 격차는 결국 좁아질 것이며, 그때가 되면 시장 규모 증가가 전체 산업에 상당한 영향을 미칠 것입니다.

고장 양상은 다소 특이해 보입니다. LLM 기반 로봇이 오작동할 때, 기존 로봇에서는 볼 수 없는 방식으로 고장이 발생하는 경우가 많습니다. 예를 들어, 자신 있게 실수를 저지르거나, 특정 기능을 "환상적으로" 인지하거나, 자체 플래너와의 대화 루프에 갇히는 등의 현상이 나타납니다. 기존 로봇 공학계는 이러한 현상에 대해 상당히 회의적인 시각을 가지고 있으며, 이는 근거 없는 것이 아닙니다. 그들은 학습 시스템이 안전하게 모니터링되고 행동이 제한되어야 한다고 주장합니다. 현재까지 가장 안정적으로 상용화된 로봇은 하이브리드 방식입니다. 즉, VLA 두뇌가 수작업으로 설계된 안전 케이지 안에 배치된 형태입니다.

"ChatGPT의 시대"라는 표현은 유용하지만 오해의 소지가 있는 비유입니다 . 젠슨 황은 로봇 공학의 "ChatGPT 시대"가 도래했다고 끊임없이 말해왔습니다. 그가 이렇게 말하는 이유는 엔비디아가 삽과 곡괭이를 팔기 때문입니다. 좀 더 솔직하게 말하자면, 우리는 현재 물리적 인공지능 분야에서 대략 GPT-2 시대에 접어들었다고 할 수 있습니다 . 강력하고 인상적이지만, 무인으로 배치될 만큼 강력하지는 않습니다. 빠르게 발전하고 있지만 아직 폭발적인 확산을 이루지는 못했고, 느리지만 꾸준히 성장하고 있는 중입니다.

결론

 유슈 사족보행 로봇의 진화 과정 (오른쪽에서 왼쪽으로)

유슈의 사무실에서 진행된 시연에서는 다섯 대의 G1 휴머노이드 로봇이 무술 동작을 선보였습니다. 로봇들의 동작은 정교하게 안무되었고, 내장된 VLA 컨트롤러로 미세 조정되었으며, 원격 조작자가 모든 것이 원활하게 진행되도록 관리했습니다. 근본적으로 완전히 자율적인 것은 아니었지만, 인지, 계획, 동작 제어 등 모든 과정이 신경망으로 대체되었습니다. 2년 후, 동일한 로봇은 안무를 짜지 않고도 같은 동작을 수행할 수 있게 되었습니다. 전체 동작을 미리 설계하고 최적의 버전을 선택했기 때문입니다.

이 글에서 설명하는 전체 개발 과정, 즉 수작업으로 작성된 컨트롤러부터 머신러닝 기반의 인지, LLM 플래너, VLA, 이중 시스템 아키텍처, 그리고 최종적으로 세계 모델에 이르기까지, 로봇 지능의 위치가 서서히 이동하는 과정을 보여줍니다. 이 과정은 엔지니어들의 머릿속에서 시작하여 수작업 코드로 발전하고, 인지 계층, 계획 계층, 정책 계층을 거쳐, 이제는 궁극적으로 세상을 스스로 학습하는 모델로 나아가고 있습니다.

이러한 변화는 로봇을 더욱 다재다능하고, 적응력이 뛰어나며, 유용하게 만듭니다. 만약 이러한 세계 모델의 변화가 성공한다면, 로봇은 진정으로 강력한 힘을 갖게 될 것이며, 더 이상 "로봇이 무엇을 할 수 있을까?"라는 질문이 아니라 "로봇에게 무엇을 시켜야 할까?"라는 질문이 제기될 것입니다.