자본의 새로운 도박: Physical AI가 인공지능 내러티브를 다시 쓰고 있다

저자: Zen, PANews

오늘날 우리가 접하는 인공지능은 거의 모두 화면 속에 존재한다. 질문에 답하고, 이미지를 생성하며, 코드를 작성하거나 다양한 에이전트(Agent)로 패키징되어 기업의 워크플로에 투입된다. 이들은 정보 처리 방식을 크게 바꾸어 놓았지만, 현실 세계로 들어와 생산, 서비스, 보조 노동에 참여하는 경우는 드물다.

생성형 AI가 한때의 놀라움을 넘어 일상이 되면서, 업계는 다음 단계의 질문을 고민하기 시작했다. 진정한 인공지능이란 환경을 인식하고, 행동을 계획하며, 물체를 조작하고, 현실의 피드백을 통해 학습하는 능력까지 갖춰야 하는 것은 아닐까?

올해 상반기 자본시장은 이미 자신만의 답을 내놓기 시작했다. TechTimes가 Dealroom 데이터를 인용해 보도한 바에 따르면, 피지컬 AI(Physical AI) 및 로봇 기업들의 2026년 현재까지의 자금 조달 규모는 558억 달러에 달해, 전년도 연간 기록의 거의 두 배에 육박한다.

또한 암호화폐 업계에 잘 알려진 크립토 네이티브 벤처 캐피털들도 이 분야로 방향을 돌리기 시작했다. Framework Ventures는 최근 4억 달러 규모의 4호 펀드 조성을 완료하고 투자 범위를 AI, 로봇 분야로 확장한다고 발표했다.

현재 거의 모든 기술 분야의 자본이 다음 기술 혁명의 상상력을 물리적 세계로 향하게 하고 있다. 자본, 산업, 여론의 동시다발적인 전환은 더 깊은 판단을 가리킨다. 즉, 피지컬 AI는 단순한 AI의 또 다른 응용 트랙이 아니라, 인공지능이 '정보 처리 시스템'에서 '현실 제어 시스템'으로 나아가는 패러다임의 변화라는 것이다.

피지컬 AI, 지능을 재정의하다

지난 2년간 우리가 목격한 AI의 비약적인 발전은 주로 디지털 정보 세계에서 일어났다. 대규모 언어 모델은 텍스트 처리에 능하고, 이미지 모델은 시각 콘텐츠 생성에 뛰어나며, 코드 모델은 정해진 규칙 속에서 프로그래밍 작업을 완수하는 데 강점을 보인다. 하지만 이러한 입력과 출력은 여전히 디지털 공간에 머물러 있으며, 멀티모달 모델이 '이미지를 보고 말할 수' 있다 해도 주로 이미지, 텍스트, 의미 간의 대응 관계를 이해하는 수준이다.

초기 공상과학 소설에서 그려왔듯, 인류가 오래도록 꿈꿔온 지능은 결코 추론, 글쓰기, 대화만을 의미하지 않았다. 물리적 세계에 사는 인간에게 지능은 오히려 작업을 완수하는 능력에 가깝다. 환경을 보고, 제약을 이해하며, 행동을 계획하고, 물체를 조작하며, 피드백 속에서 끊임없이 조정하는 능력이다.

우리에게 필요한 것은 단지 '컵이 탁자에서 떨어질 것'이라고 예측하는 모델이 아니라, 컵의 재질, 무게, 힘의 변화를 판단한 끝에 실제 환경에서 손을 뻗어 컵을 집어 들고, 힘과 자세를 조절하며 겉보기에는 단순하지만 여러 변수가 얽힌 동작을 안정적으로 완수할 수 있는 능력이다.

이러한 요구와 상상이 바로 피지컬 AI가 과학기술계의 주목을 받는 이유다. 오늘날의 AI 대형 모델은 언어, 이미지, 코드 작업에서 이미 강력한 능력을 보여주고 있지만, 물리적 세계로 들어서면 문제는 단순히 명령을 이해하는 것을 넘어선다. 더 중요한 것은 인식, 판단, 동작을 하나의 안정적인 시스템으로 연결할 수 있는지 여부다. 환경을 명확히 인식하고, 물체의 상태를 이해하며, 동작 경로를 계획하고, 실행 과정에서 피드백에 따라 끊임없이 조정해야 한다.

a16z는 수건 접기를 예로 들어 이러한 복잡성을 설명한 바 있다. 인간에게는 일상적인 이 동작도 기계에게는 유연한 소재의 변형을 시스템적으로 이해하고, 연속 동작을 제어하며, 손과 천 사이의 접촉 상태를 인식하고, 접기에 실패했을 때 다시 조정하는 능력을 요구한다. 사람에게는 거의 생각이 필요 없는 동작이지만, 로봇이 수행하려면 유연 소재 모델링, 모션 제어, 촉각 피드백, 시뮬레이션 훈련 등 여러 기술적 난제를 해결해야 한다.

엔비디아의 행보 역시 이러한 변화에 대응하고 있다. 젠슨 황(Jensen Huang) CEO는 GTC 2026에서 피지컬 AI가 이미 도래했으며, 모든 산업 회사가 로봇 회사가 될 것이라고 말했다. 엔비디아가 Cosmos, Isaac, GR00T 등의 모델과 시뮬레이션 도구를 선보인 것은 시뮬레이션 훈련부터 실제 배포까지의 인프라를 구축하기 위해서다. 로봇이 가상 환경에서 물리 법칙과 동작 전략을 먼저 학습한 후, 공장, 창고 등 실제 현장으로 옮겨가 임무를 수행하게 하는 것이다.

피지컬 AI: '소프트웨어 생산성'에서 '물질적 생산성'으로

생성형 AI는 이미 도시의 사무직 노동자들의 업무 방식을 바꾸어 놓았다. 이메일을 대신 작성하고, PPT를 만들며, 광고 문구를 생성하고, 회의록을 요약하며, 고객 서비스, 디자인, 교육, 법률 보조 등의 분야에서 효율을 높인다. 그러나 이러한 시나리오는 본질적으로 여전히 정보 노동에 속하며, 정보를 처리하는 방식을 변화시킨 것이다.

피지컬 AI가 지향하는 것은 또 다른 종류의 작업이다. 더 이상 사무실의 문서와 코드가 아니라, 공장의 부품, 창고의 택배, 병원의 기기, 농지의 작물, 광산의 장비, 도로의 차량, 에너지 시스템의 인프라와 마주한다. 과거의 AI가 주로 정신 노동의 효율을 높였다면, 피지컬 AI는 육체 노동과 산업 프로세스에 진입하려 한다.

이것이 자본이 이 분야에 높은 관심을 보이는 이유이기도 하다. 소프트웨어 AI가 주로 기업의 소프트웨어 예산과 지식 근로자의 시간을 겨냥했다면, 로봇이 실제 작업을 안정적으로 수행할 수 있게 되면 제조업, 물류업, 건설업, 의료 간병, 농업, 방위 산업의 인건비, 생산능력 병목, 설비 가동률, 공급망 효율성에 접근하게 된다. 이는 새로운 SaaS 카테고리를 두고 다투는 것이 아니라, 실물 경제의 가장 핵심적인 비용 항목을 놓고 경쟁하는 것이다.

Figure AI가 인간과의 택배 선별 및 포장 속도 대결을 공개 시연한 것은 직관적인 사례를 제공한다. 이 시연은 휴머노이드 로봇이 반복적인 물류 작업을 처리할 가능성과 함께, 피지컬 AI의 잠재적 정착 경로를 보여주었다. 즉, 반복적이고, 빈도가 높으며, 반구조화되어 있고, 노동 강도가 센 시나리오부터 시작해 점차 더 복잡한 산업 공정으로 진입하는 것이다.

가정용 로봇에 비해 창고와 공장은 배포가 더 용이하다. 현장 조건이 더 통제 가능하고, 작업이 더 명확하며, 투자 수익률(ROI)도 계산하기 쉽기 때문이다. Figure가 BMW 공장에 배치한 Figure 02 로봇은 BMW 스파턴버그(Spartanburg) 공장에서 차량 조립 관련 작업에 참여해 약 3만 대의 차량 생산 작업 완수를 도왔다. 최신 세대인 Figure 03은 BMW 공장의 조립 및 물류 홀로 들어가 무거운 소형 카트를 끌거나, 신체 위치를 재조정하고 부품을 운반하는 등 더 복잡한 시퀀싱(sequencing) 작업을 수행한다.

이것이 휴머노이드 로봇이 높은 비용과 어려움에도 불구하고 여전히 자본을 끌어들이는 이유다. 전통적인 산업 자동화는 고정 작업장에서의 용접, 운반, 조립 등 고도로 표준화된 작업을 처리하는 데 능하다. 하지만 실제 공장과 창고에는 표준화와 비표준화 사이에 놓인 방대한 작업이 여전히 존재한다. 즉, 작업 자체는 반복적으로 발생하지만, 물체의 크기, 위치, 자세, 순서, 환경 상태가 끊임없이 변하는 경우다.

택배의 크기가 제각각이고, 부품 위치가 이탈하며, 자재 운반차의 임시 조정이 필요하고, 생산 라인도 주문 변화에 따라 재배치된다. 현재 많은 피지컬 AI 기업들이 진입하려는 곳이 바로 이런 반구조화되고, 빈도가 높으며, 상업적 가치를 지닌 완전히 표준화되지 않은 시나리오다.

이런 관점에서 보면, 피지컬 AI는 어떤 의미에서 AI를 노동 시장에 진입시키는 것이다. 그것이 궁극적으로 바꾸는 것은 특정 단일 직무가 아니라 하나의 노동 조직 방식일 수 있다. 과거에는 기업이 채용, 근무 배정, 교육, 관리를 통해 인간 노동을 배치했다. 미래에는 노동의 일부가 모델, 로봇, 원격 모니터링 시스템을 통해 관리될 가능성이 있다. 고령화, 노동력 부족, 제조업 리쇼어링, 공급망 안보, 국가 산업 역량 또한 이 동일한 기술 주류로 편입되고 있다.

피지컬 AI의 핵심 경쟁: '현실 세계 데이터'

표면적으로는 피지컬 AI 트랙이 로봇 하드웨어의 경쟁으로 보인다. 누구의 동작이 더 안정적인지, 누구의 손이 더 정교한지, 누구의 배터리 지속 시간이 더 긴지가 우위 요소로 여겨진다. 그러나 하드웨어 너머, 더 중요한 경쟁이 현실 세계 데이터를 중심으로 전환되고 있다.

지난 AI 경쟁은 인터넷 데이터 위에서 구축되었다. 텍스트, 이미지, 비디오, 코드, 웹 콘텐츠가 모델 훈련에 대규모로 사용되어, 대규모 언어 모델이 글쓰기, 번역, 요약, 생성 작업에서 보여주는 범용 능력의 기반이 되었다. 그러나 피지컬 AI는 완전히 새로운 데이터 환경에 직면한다. 로봇이 학습해야 하는 것은 현실 공간에서 어떻게 이동하고, 집고, 운반하고, 조립하며, 환경 변화에 따라 동작을 조정하는가이다.

차세대 희소 자산은 현실 세계의 동작 데이터가 될 가능성이 크다. 예를 들어, 인간이 물리적 작업을 어떻게 완수하는지에 대한 데이터: 손을 어떻게 잡는지, 몸의 균형은 어떻게 잡는지, 힘은 어떻게 조절하는지, 실패 후 어떻게 교정하는지, 언제 전략을 변경하는지 등이다. 이러한 데이터는 웹 페이지처럼 직접 크롤링할 수 없다. 실제 시나리오, 로봇 하드웨어, 센서, 모션 캡처, 장기간의 배포를 필요로 한다.

이것이 많은 로봇 회사들이 데이터 수집을 핵심 역량으로 구축하고 있는 이유이기도 하다. 앱트로닉(Apptronik)은 최근 새로운 로봇 훈련 시설 '로봇 파크(Robot Park)'를 출시하고 Apollo 2 휴머노이드 로봇을 공개했다. 이 훈련 센터는 구글 딥마인드(Google DeepMind)와 협력하여 대규모 현실 세계 데이터를 수집하고, 로봇이 시범 운영을 넘어 규모 있는 배포로 나아가도록 추진하는 것을 목표로 한다.

최근 테더(Tether), 엔비디아(Nvidia), 아마존(Amazon) 등으로부터 총 14억 달러의 투자를 유치한 독일 로봇 기업 뉴라 로보틱스(NEURA Robotics)의 행보 또한 이 문제에 직접적으로 방점을 찍고 있다.

NEURA가 내놓은 NEURA Gym은 피지컬 AI 훈련 시설로 자리매김했으며, 실제 환경이나 이에 가까운 물리적 환경에서 로봇이 파지, 분류, 조립 같은 작업을 반복 연습해 시각·촉각·힘 피드백과 공간 인식 데이터를 생성하는 것이 핵심이다. 이와 함께 제공되는 Neuraverse는 플랫폼 역할을 맡아 로봇, 개발자, 디지털 트윈, 훈련 데이터를 연결하며, 한 시나리오에서 훈련된 능력을 더 많은 로봇과 애플리케이션에서 다시 활용할 수 있게 한다. NEURA와 뮌헨 공과대학교는 뮌헨 공항에 TUM RoboGym을 건설한다고 발표했으며, 유럽 최대의 피지컬 AI 연구·훈련 센터라고 밝혔다.

이러한 흐름에 발맞춰 로봇 데이터를 중심으로 한 창업 분야도 등장하고 있습니다. 예를 들어 Roborecs는 스스로를 'Physical AI 뒤의 데이터 인프라'로 규정하며, 조작자를 모집·훈련시켜 인간이 원격으로 로봇을 조작해 양손 조립과 같은 접촉 집약적 작업을 수행하게 하고, 시각·힘·촉각 데이터를 수집한 뒤 이를 로봇 제조사에 라이선스 형태로 제공합니다.

Physical AI 생태계는 이미 분업화가 진행 중임을 알 수 있습니다. 어떤 회사는 로봇의 몸체를 만들고, 어떤 회사는 로봇의 '두뇌'를 만들며, 어떤 회사는 시뮬레이션 플랫폼을 만들고, 또 어떤 회사는 로봇 훈련에 필요한 데이터 수집을 전문으로 합니다.

학계에서도 이 문제를 둘러싸고 빠르게 움직이고 있습니다. 최근 휴머노이드 로봇 원격 조작과 동작 전이에 관한 논문이 대거 등장하고 있는데, 예를 들어 IMU 기반 모션 캡처 슈트를 통해 인간의 동작을 실시간으로 Unitree G1 로봇에 매핑하거나, VR 기기를 통해 휴대형 휴머노이드 로봇 데이터 수집 시스템을 구축하는 연구들이 그것입니다. 이 연구들은 인간의 신체 경험을 로봇이 학습하고 재활용할 수 있는 데이터로 어떻게 변환할 것인가라는 문제로 공통적으로 귀결됩니다.

다만, 자본과 상상력이 충분히 풍부해졌음에도, 아직 초기 단계에 있는 Physical AI로서는 오늘날의 휴머노이드 로봇이 범용 배치까지는 아직 긴 거리가 남아 있으며, 많은 시연은 여전히 제어된 환경과 원격 조작, 정교하게 설계된 과제에 의존하고 있습니다.

그러나 적어도 이는 인공지능의 발전이 새로운 단계로 접어들고 있음을 보여줍니다. 이 과정은 단숨에 이루어지지 않을 것이며, 심지어 오늘날 가장 대중적인 휴머노이드 로봇 형태로 완성되지 않을 수도 있습니다. 그럼에도 AI가 화면을 벗어나 현실 세계로 나아가는 것은, 다음 기술 경쟁의 점점 더 뚜렷한 방향이 되고 있습니다.