리페이페이의 팀은 "월드 모델"이라는 개념을 명확히 하면서 소라는 단순히 렌더링 담당이라고만 볼 수 있다고 밝혔습니다.

2026년 6월 3일, 월드 랩스 팀은 스탠포드 대학교의 페이페이 리 교수와 협력하여 "월드 모델의 기능적 분류"라는 간결하고 명쾌한 제목의 개념 분석 논문을 발표했습니다. 논문의 첫 문장은 업계의 공통된 의견을 명확히 보여줍니다. "월드 모델은 오늘날 인공지능 분야에서 가장 중요하면서도 가장 오용되는 용어 중 하나이다."

이 발언의 맥락은 인공지능 산업을 지켜봐 온 사람이라면 누구나 잘 알고 있을 것입니다.

2024년 2월, OpenAI는 "세계 시뮬레이터로서의 비디오 생성 모델"이라는 제목의 기술 보고서와 함께 비디오 생성 모델인 Sora를 공개했습니다. NVIDIA의 로봇 공학 담당 이사인 짐 팬은 링크드인에 다음과 같은 댓글을 남겼는데, 이후 이 댓글은 여러 차례 인용되었습니다. "Sora는 본질적으로 '오직 아무것도 하지 않는 것만이 유일한 행동으로 허용되는 세계 모델'입니다." 한편, 공개된 보고서에 따르면 테슬라의 AI 팀은 자사의 완전 자율 주행 시스템 내 예측 구성 요소를 "세계 모델" 또는 "세계 시뮬레이터"라고 반복적으로 언급했습니다. 게임 엔진, 3D 생성 도구, 지능형 모델 등 다양한 제품과 기술이 같은 범주에 묶여 동일한 이름으로 불리고 있습니다.

비디오 생성기, 자율 주행 예측 네트워크, 로봇 제어 모델, 물리 엔진—이들의 공통점은 무엇일까요? 거의 없습니다. 하지만 이 모든 것을 "월드 모델"이라고 부릅니다.

2년 넘게 지속된 이러한 개념적 혼란이 마침내 체계적으로 해소되고 있습니다. 이번에 페이페이 리(Fei-Fei Li) 연구팀은 새로운 모델을 발표하거나 새로운 벤치마크를 제시하거나 제품 기능을 시연한 것이 아닙니다. 대신, 그들은 더욱 근본적인 작업을 수행했습니다. 부분 관측 가능 마르코프 결정 과정(Partially Observable Markov Decision Processes)의 이론적 근원으로 돌아가, "세계 모델"로 홍보되는 모든 시스템을 동일한 인지 루프의 세 가지 서로 다른 기능적 투영으로 축소시킨 것입니다.

프로젝션 유형은 렌더러, 시뮬레이터, 플래너의 세 가지입니다. 월드랩의 분류 체계에서 소라와 유사한 비디오 생성 모델은 렌더러 범주에 속합니다.

하나의 용어가 왜 그렇게 많은 모순된 의미를 가질 수 있을까요?

이러한 혼란의 근원을 이해하려면 보다 근본적인 질문부터 던져야 합니다. 기업이 "우리는 세계적인 모델을 구축하고 있다"라고 말할 때, 정확히 무엇을 의미하는 것일까요?

OpenAI에게 있어 소라의 목표는 "비디오를 통해 물리적 세계를 이해하고 표현하는 것"입니다. 기술 보고서에 따르면 소라는 방대한 양의 비디오 데이터에서 통계적 패턴을 학습하여 시각적으로 그럴듯한 이미지를 생성합니다. 예를 들어 컵을 떨어뜨리면 깨지고, 종이비행기를 놓으면 날아가며, 사람이 걸을 때 다리가 번갈아 움직이는 것과 같은 이미지를 만들어냅니다. 이러한 이미지들은 마치 "물리학을 이해하는" 것처럼 보입니다.

테슬라의 경우, "월드 모델"은 FSD 시스템에 내장된 신경망으로, 향후 몇 초 동안 도로 이용자의 궤적을 예측합니다. 이 모델은 경로 계획 모듈이 안전 주행 결정을 내릴 수 있도록 정확한 3D 위치, 속도 및 방향 정보를 출력해야 합니다. 픽셀 단위의 데이터가 아닌 벡터와 확률 분포를 출력하는 방식입니다.

로봇 공학 회사에서 "월드 모델"이란 로봇 팔이 컵을 왼쪽으로 5cm 밀었을 때 컵이 넘어질지 예측할 수 있도록 하는 내부 시뮬레이션 메커니즘입니다. 이 모델은 물체의 속성, 접촉 역학, 안정성을 이해하고 동작의 타당성 평가를 출력해야 합니다.

이 세 유형의 회사는 목표가 완전히 다릅니다. 비디오 제작 회사는 픽셀 품질에, 자율 주행 회사는 물리적 상태 예측의 정확성에, 로봇 공학 회사는 행동 결과의 예측 가능성에 중점을 둡니다. 모두 "세계 모델"을 구축하고 있지만, 근본적으로 서로 다른 일을 하고 있습니다.

월드랩스는 해당 기사에서 핵심 문제를 직접적으로 지적합니다. 이러한 시스템들이 모두 같은 이름을 갖는 이유는 실제로 "세계를 이해하는" 특정 측면을 나타내기 때문입니다. 그러나 각각의 시스템은 완전한 인지 주기의 한 단계만을 완성할 뿐인데, 마케팅 용어, 언론 보도, 그리고 자본의 담론에 의해 하나의 완전한 세계 모델로 포장되어 판매되고 있습니다.

개념적 혼란을 야기하는 또 다른 주요 요인은 용어 자체에 내재된 긴장감입니다. "세계 모델"이라는 용어는 "비디오 생성 모델"이나 "비디오 예측 모델"보다 더 상상력이 풍부하고 높은 가치 평가와 투자 유치에 유리한, 거창한 서사를 담고 있습니다. 기술적 역량이 대중의 기대를 충족시키지 못할 때, 이러한 개념은 필연적으로 선전 도구로 전락하게 됩니다.

1960년대로 돌아가 보면, 완벽한 "세계 모델"은 어떤 모습이어야 했을까요?

월드랩의 분류 체계는 부분적으로 관측 가능한 마르코프 결정 과정이라는, 다소 오래된 이론에 기반을 두고 있습니다.

이 프레임워크는 에이전트와 환경 간의 상호작용 전체 과정을 설명합니다. 에이전트는 특정 환경 상태에 있으며, 환경 상태를 변화시키는 행동을 수행합니다. 에이전트는 센서를 통해 부분적인 관찰 정보를 얻고, 이를 바탕으로 내부 상태를 업데이트합니다. 업데이트된 정보는 다음 행동을 결정하는 근거가 됩니다. 이러한 과정이 지속적으로 반복됩니다.

이러한 틀 안에서 "세계 모델"의 완전한 기능은 세 단계를 포함해야 합니다. 첫째, 상태(인간의 눈으로 보거나 센서로 수집한 픽셀, 포인트 클라우드 등)로부터 관찰값을 생성하는 단계, 둘째, 행동과 현재 상태로부터 다음 상태를 추론하는 단계(물리적 변화 예측), 셋째, 관찰값과 목표로부터 행동을 생성하는 단계(의사결정 계획)입니다.

언어 모델은 텍스트 시퀀스의 통계적 패턴을 학습하는 반면, 세계 모델은 공간과 시간의 통계적 특성을 학습합니다. 빛이 다양한 표면에 반사되는 방식, 물체가 중력 하에서 움직이는 방식, 강체 충돌 후 에너지가 전달되는 방식 등이 세계 모델이 포착하고자 하는 패턴입니다.

월드랩스 팀은 논문에서 현재 시중에 나와 있는 "월드 모델"이라고 불리는 모든 시스템은 실제로 위에서 설명한 전체 주기의 단일 기능 부분만을 투영한 것에 불과하다고 지적합니다. 어떤 시스템은 "상태에서 관찰까지"만 렌더링하고, 어떤 시스템은 "행동에서 다음 상태까지" 상태 추론만 수행하며, 또 어떤 시스템은 "관찰에서 행동까지" 계획만 세웁니다. 각 시스템은 주기의 일부만을 포착하지만, 모두 그것이 전체 주기를 나타낸다고 주장합니다.

이 분석 프레임워크의 가치는 마케팅 수사를 초월하는 비교 분석 틀을 제공한다는 데 있습니다. 기업이 제품을 어떤 방식으로 포장하든, POMDP(제품 최적화 및 개발 프로세스) 주기에 다시 투입하여 투입 요소, 산출 요소, 그리고 부족한 구성 요소를 분석하면 그 역량의 한계가 명확하게 드러납니다.

렌더러, 시뮬레이터, 플래너: 세 가지 투영 방식의 기능적 한계

월드랩의 분류 체계에서 첫 번째 범주는 "렌더러"로 정의됩니다. 핵심 목표는 인간의 시각적 인식을 고려하여 고화질 픽셀 출력을 생성하는 것입니다. 입력은 환경 상태를 나타내는 표현(텍스트 설명, 3D 장면 매개변수 또는 암묵적 인코딩 등)이며, 출력은 연속적인 프레임 시리즈입니다.

해당 렌더링 엔진은 물리적 정확성보다는 시각적 사실성에 최적화되어 있습니다. 월드 랩스(World Labs)의 한 기사에서는 렌더링 엔진으로 생성된 건물이 구조 역학 방정식을 실제로 풀지 않기 때문에 "흔들리는" 것처럼 보일 수 있다고 명시적으로 지적합니다. 액체가 튀는 모습은 사실적으로 보일 수 있지만, 액체의 부피, 유량, 충격력은 실제 물리량과 완전히 다를 수 있습니다. 따라서 이러한 모델은 건축 설계, 로봇 훈련 또는 물리적으로 정확한 시뮬레이션이 필요한 작업에는 사용할 수 없습니다.

구글의 지니 3, 다양한 텍스트-비디오 변환 모델, 그리고 거의 모든 AI 비디오 생성 도구들이 이 범주에 속합니다. 소라도 물론 그중 하나입니다.

두 번째 범주는 "시뮬레이터"입니다. 시뮬레이터의 핵심 목표는 사람을 위한 시각적 이미지를 생성하는 것이 아니라, 후속 계산에 사용할 수 있는 정확한 상태를 생성하는 것입니다. 입력은 현재 환경 상태와 외부 힘(또는 작용)이며, 출력은 실제 세계의 법칙에 물리적, 기하학적으로 충실한 다음 상태입니다. 시뮬레이터가 출력하는 상태는 응력 분석, 에너지 소비 계산, 충돌 감지 등에 사용될 수 있으며, 렌더링 프로그램의 입력으로 사용되어 시각적 이미지를 생성할 수도 있지만, 시뮬레이터의 핵심 가치는 상태 자체의 계산 가능성에 있습니다.

NVIDIA Omniverse는 이러한 유형의 시스템을 대표하는 예입니다. 이는 네이티브 AI 모델이 아니라 기존 물리 엔진과 AI 가속 연산을 통합한 디지털 트윈 플랫폼입니다. World Labs는 기사에서 시뮬레이터가 렌더링과 계획 사이의 가교 역할을 하지만, 고품질 3D 물리 주석 데이터의 부족이 주요 병목 현상이라고 지적합니다. World Labs는 기사에서 이러한 모델을 학습하는 데 사용되는 데이터가 인터넷에서 사용 가능한 비디오 데이터보다 훨씬 적다고 추정합니다.

세 번째 범주는 "계획자"입니다. 계획자의 입력은 관찰 데이터(카메라 영상, LiDAR 포인트 클라우드, 촉각 센서 판독값 등)와 목표 지시이며, 출력은 다음에 수행할 동작입니다. VLA(Vision-Language-Action) 모델과 월드 액션 모델이 이 범주에 속합니다.

세 가지 범주 간의 차이는 기술적 접근 방식의 사소한 차이가 아니라 근본적인 기능적 차이입니다. 렌더러는 사람이 볼 수 있는 픽셀을 출력하고, 시뮬레이터는 기계가 계산할 상태를 출력하며, 플래너는 실행기가 실행할 동작을 출력합니다. 시스템은 여러 기능을 동시에 가질 수 있지만, "월드 모델"이라고 불리는 대부분의 시스템이 본질적으로 렌더링만 수행하기 때문에 "렌더링"을 "세상을 이해하는 것"과 동일시하는 것은 심각한 인지적 불일치입니다.

2년간의 논쟁: 소라는 세계적인 롤모델인가?

2024년 2월, OpenAI는 "비디오 생성 모델을 세계 시뮬레이터로 활용하기"라는 제목의 기술 보고서와 함께 Sora를 공개했습니다. 이 용어는 학계와 개발자 커뮤니티에서 즉시 뜨거운 논쟁을 불러일으켰습니다.

지지자들은 소라가 생성한 영상들이 3D 공간에서의 일관성, 객체 지속성, 그리고 물리적 상호작용에 대한 직관적인 이해를 보여준다고 주장합니다. 한 입 베어 문 햄버거에 이빨 자국이 남거나, 개가 눈 속에서 뛰어다니며 눈송이를 흩날리는 모습과 같은 세부적인 묘사는 모델이 물리 법칙을 학습했음을 시사합니다.

반대론자들의 핵심 주장은 강화 학습에서 세계 모델에 대한 고전적인 정의에서 비롯됩니다. 즉, 세계 모델은 행동에 기반하여 상태 변화를 예측할 수 있어야 한다는 것입니다. 현재 상태와 행동 입력이 주어졌을 때, 모델은 해당 행동 이후의 다음 상태를 출력해야 합니다. 소라는 이러한 기능을 수행할 수 없습니다. 사용자는 소라에게 "컵을 왼쪽으로 밀어"라고 명령한 후, 컵이 떨어질지, 어느 방향으로 떨어질지, 그리고 파편이 어디로 흩어질지를 관찰할 수 없습니다.

짐 팬의 댓글은 바로 이 모순을 정확히 지적합니다. "소라는 본질적으로 세계 모델이지만, 유일한 행동으로 아무것도 하지 않는 것만 허용한다는 점이 다릅니다." 즉, 소라는 시간이 지남에 따라 환경의 변화를 예측하지만, 이러한 변화는 외부 개입의 영향을 받지 않고 비디오 데이터 내에 내재된 인과 관계를 따라서만 전개될 수 있다는 뜻입니다. 소라는 상호작용적인 추론을 수행하는 것이 아니라, 수동적으로 관찰된 시퀀스를 이어가는 것뿐입니다.

레딧의 r/MachineLearning 서브레딧에서 많은 강화 학습 연구자들은 더욱 날카로운 비판을 제기했습니다. 행동에 기반한 상태 변화를 예측할 수 없는 시스템은 월드 모델이라고 부를 수 없고, 단지 비디오 예측 모델이라고 부를 수 있을 뿐이라는 것입니다.

월드랩스의 분류 체계는 이 논쟁에 대한 명확한 해답을 제시합니다. POMDP 루프에서 행동은 상태 전환을 유도하는 핵심 입력 요소입니다. 이러한 입력이 없는 시스템은 전체 인지 루프에서 "관찰 생성" 단계의 단순한 투영일 뿐입니다. Sora는 렌더링 도구일 뿐, 완전한 세계 모델도 아니고, 세계 시뮬레이터도 아닙니다.

하지만 그렇다고 소라가 가치가 없다는 뜻은 아닙니다. 렌더러는 인간의 시각적 기대에 부응하는 이미지를 생성하는 방법이라는 다른 문제를 해결합니다. 이 문제는 그 자체로 매우 어렵고 엄청난 상업적 가치를 지니고 있습니다. 문제는 렌더링 기능을 "세상을 이해하는 능력"으로 포장하는 것이 기술 의사 결정권자와 투자자들을 오도하여, 이러한 모델들이 이미 물리적 추론이나 구체적인 상호작용을 수행할 수 있는 능력을 갖추고 있다는 잘못된 인상을 준다는 것입니다.

개념 명확화의 산업적 가치

'세계 모델' 정의의 경계를 명확히 하는 것은 단순히 학문적인 말장난에 그치는 것이 아닙니다. 이는 기술 선택, 투자 결정, 그리고 대중의 인공지능 역량에 대한 이해에 직접적인 영향을 미칩니다.

제조 기업이 로봇 훈련에 특정 "월드 모델"을 사용할지 여부를 평가할 때, 해당 모델이 렌더링 모델인지, 시뮬레이터 모델인지, 아니면 플래너 모델인지 파악하는 것은 수백만 달러의 시행착오를 피하는 데 필수적입니다. 아무리 사실적인 영상이라 할지라도, 단순히 비디오 영상만 생성할 수 있는 모델은 물체에 작용하는 힘, 궤적, 충돌 결과에 대한 정확한 계산을 대체할 수 없습니다.

투자 기관에게 있어 세 가지 유형의 예측을 구분하는 것은 프로젝트가 기술 스택 내에서 어떤 위치를 차지하는지 더욱 정확하게 파악할 수 있게 해줍니다. 예를 들어, 스스로를 "월드 모델"이라고 부르는 스타트업이 본질적으로 렌더링 소프트웨어만 개발한다면, 디지털 트윈 플랫폼이나 로봇 제어 모델이 아닌 비디오 생성 회사들과 경쟁하게 될 것입니다. 이는 시장 규모 추정 방식과 벤치마크 기업 선정에 직접적인 영향을 미칩니다.

학계에서 명확한 분류는 비교 가능한 기준을 설정하는 데 필수적입니다. "세계적 모델"이라는 용어가 계속해서 일반화된다면, 연구자들은 무엇이 개선이나 획기적인 발전인지 정의하기 어려워질 것이고, 동료 평가는 모호한 기준에 기반하게 될 것입니다.

월드랩스는 또한 해당 기사에서 개념을 명확히 하는 것이 갈등을 조장하는 것이 아니라고 지적합니다. 미래의 방향은 세 가지 유형의 투영 방식을 융합하는 것입니다. 컵의 물리적 특성을 진정으로 이해하는 모델은 컵의 시각적 외관을 동시에 렌더링하고, 컵이 넘어지는 물리적 과정을 시뮬레이션하며, 로봇 팔이 컵을 안정적으로 잡는 방법을 계획할 수 있어야 합니다. 하지만 기술이 그 수준에 도달할 때까지는 융합을 상상하기보다는 각 방식의 한계를 인식하는 것이 더 현실적입니다.

월드랩스(World Labs)의 기사에 따르면, NVIDIA 옴니버스(Omniverse)가 대표하는 시뮬레이터 및 디지털 트윈 기술은 공장, 창고, 공급망과 같은 분야에서 1조 달러가 넘는 잠재 시장을 목표로 하고 있습니다. 이 수치는 제조업체 자체의 추정치이며, 시장이 실제로 이 규모에 도달하는 시점은 시뮬레이터가 고품질 3D 물리 데이터 부족이라는 병목 현상을 극복할 수 있는지 여부에 달려 있습니다.

현재 인공지능 산업에서 가장 중요한 점은 아주 간단할지도 모릅니다. 현실적인 영상을 생성하는 것이 물리적 세계를 이해하는 것과 같지 않으며, 세계 모델이라고 불린다고 해서 실제로 세계를 시뮬레이션하는 것은 아닙니다. 마케팅 문구에 현혹되지 않고 시스템이 실제로 어떤 입력을 받고 어떤 결과를 출력하는지, 그리고 POMDP(프로그래밍 객체 모델링) 과정에서 어떤 단계가 누락되었는지를 살펴보는 것이 기술적 역량의 한계를 판단하는 가장 정직한 방법입니다.