2025년 인공지능 패러다임의 6대 변화: RLVR 훈련과 바이브 코딩부터 나노 바나나까지

요약: AI 전문가 안드레이 카르파티는 구글 나노 바나나와 누구나 접근 가능한 바이브 코딩을 포함하여 2025년 AI 분야의 6가지 주요 패러다임 변화를 검토했습니다.

저자: 안드레이 카르파티

작성: 팀, PANews

2025년은 대규모 언어 모델 분야에 있어 급속한 발전과 큰 불확실성이 공존하는 한 해가 될 것이며, 우리는 상당한 성과를 거두었습니다. 아래는 제가 개인적으로 주목할 만하고 다소 놀랍다고 생각하는 몇 가지 "패러다임 전환"입니다. 이러한 변화들은 적어도 개념적으로는 업계의 지형을 바꾸어 놓았고 저에게 깊은 인상을 남겼습니다.

1. 검증 가능한 보상 기반 강화 학습(RLVR)

2025년 초, 모든 AI 연구소의 LLM 생산 스택은 대략 다음과 같은 형태를 갖추게 될 것입니다.

  • 사전 훈련(2020년 GPT-2/3);
  • 미세 조정 감독(InstructGPT 2022);
  • 그리고 인간의 피드백에 기반한 강화 학습(RLHF, 2022).

오랫동안 이는 대규모 언어 모델을 실제 운영 환경에 배포하기 위한 안정적이고 성숙한 기술 스택이었습니다. 2025년까지 검증 가능한 보상 기반의 강화 학습은 핵심 기술로 자리 잡을 것으로 예상되었습니다. 수학 및 프로그래밍 문제 해결과 같이 자동으로 검증 가능한 보상을 제공하는 다양한 환경에서 대규모 언어 모델을 학습시키면, 이러한 모델은 인간의 "추론"과 유사한 전략을 자연스럽게 형성할 수 있습니다. 문제 해결 과정을 중간 단계의 계산 과정으로 분해하고, 반복적인 추론을 통해 다양한 문제 해결 전략을 습득하는 방법을 학습합니다(DeepSeek-R1 논문의 예시 참조). 기존 기술 스택에서는 대규모 언어 모델의 최적 추론 경로와 역추적 메커니즘이 명시적으로 정의되지 않아, 적절한 해결책을 찾기 위해 보상 최적화를 통해 탐색해야 했기 때문에 이러한 전략 구현이 어려웠습니다.

지도 미세 조정 및 인간 피드백 기반 강화 학습(이 두 단계는 상대적으로 짧고 계산 비용이 최소화됨)과 달리, 검증 가능한 보상 기반 강화 학습은 객관적이고 게임 이론적이지 않은 보상 함수에 대한 장기 최적화 훈련을 포함합니다. 검증 가능한 보상 기반 강화 학습은 주어진 비용 대비 상당한 성능 향상을 제공할 수 있음이 입증되었으며, 이는 원래 사전 훈련에 사용될 예정이었던 막대한 양의 계산 자원을 소모합니다. 따라서 2025년 대규모 언어 모델 기능의 발전은 주로 이 새로운 기술로 인한 엄청난 계산 수요를 흡수하는 주요 AI 연구소의 노력에 반영될 것입니다. 전반적으로 모델 크기는 거의 동일하게 유지되지만, 강화 학습의 훈련 시간은 상당히 길어졌습니다. 이 새로운 기술의 또 다른 독특한 측면은 완전히 새로운 차원의 제어(및 이에 상응하는 스케일링 정리)를 가능하게 한다는 것입니다. 즉, 더 긴 추론 궤적을 생성하고 "사고 시간"을 늘림으로써 테스트 중에 계산 비용의 함수로 모델 기능을 제어할 수 있게 되었습니다. OpenAI의 o1 모델(2024년 말 출시)은 검증 가능한 보상을 기반으로 하는 강화 학습 모델의 첫 번째 사례였으며, o3 모델(2025년 초 출시)은 눈에 띄게 큰 도약을 가능하게 하는 명확한 전환점이 될 것입니다.

2. 유령 같은 지능 vs. 동물 같은 톱니 모양 지능

2025년은 저를 비롯한 업계 전체가 대규모 언어 모델 지능의 "형태"를 보다 직관적인 관점에서 이해하기 시작한 첫 해였습니다. 우리는 "동물을 진화시키고 번식시키는" 것이 아니라 "유령을 소환하는" 것입니다. 대규모 언어 모델의 전체 기술 스택(신경망 아키텍처, 훈련 데이터, 훈련 알고리즘, 특히 최적화 목표)은 근본적으로 다릅니다. 따라서 우리가 생물학적 지능과는 매우 다른 지능 영역을 가진 존재들을 얻고 있다는 것은 놀라운 일이 아닙니다. 동물적인 관점에서 그들을 살펴보는 것은 적절하지 않습니다. 지도 학습의 관점에서 볼 때, 인간의 신경망은 정글 환경에서 부족의 생존에 최적화되어 있는 반면, 대규모 언어 모델 신경망은 인간의 텍스트를 모방하고, 수학 문제에서 보상을 얻고, 다양한 분야에서 인간의 인정을 받는 데 최적화되어 있습니다. 검증 가능한 영역이 검증 가능한 보상에 기반한 강화 학습의 조건을 제공함에 따라, 이러한 영역에서 대규모 언어 모델의 능력은 "갑자기 증가"하며, 전반적으로 흥미롭고 불규칙적인 성능 특성을 보일 것입니다. 그들은 박식한 천재일 수도 있고, 혼란스럽고 인지 능력이 부족한 초등학생일 수도 있으며, 압박감에 못 이겨 당신의 데이터를 유출할 가능성도 있습니다.

 인간 지능: 파란색; AI 지능: 빨간색. 저는 이 밈 버전이 마음에 듭니다 (원본 트위터 게시물을 찾을 수 없어서 죄송합니다). 인간의 지능 또한 독특하고 들쭉날쭉한 파동 패턴으로 나타난다는 점을 잘 보여주기 때문입니다.

이와 관련하여, 2025년 저는 다양한 벤치마크에 대해 전반적인 무관심과 불신을 갖게 되었습니다. 핵심 문제는 벤치마크가 본질적으로 검증 가능한 환경이라는 점이며, 이로 인해 검증 가능한 보상과 합성 데이터에서 생성된 약한 형태의 강화 학습에 매우 취약해진다는 것입니다. 일반적인 "점수 최대화" 과정에서 대규모 언어 모델 개발팀은 필연적으로 벤치마크의 작은 임베딩 공간 근처에 훈련 환경을 구축하고 이러한 영역을 "능력의 불규칙성"으로 덮습니다. "테스트 세트로 훈련"하는 것이 새로운 표준이 되었습니다.

벤치마크 테스트에서 모든 항목을 통과하더라도 일반 인공지능을 달성하지 못하면 어떻게 될까요?

3. 커서: LLM 애플리케이션을 위한 새로운 레이어

Cursor에서 가장 인상 깊었던 점은 (올해의 급격한 성장 외에도) 사람들이 "XX 도메인용 Cursor"에 대해 이야기하기 시작하면서 "LLM 애플리케이션"의 새로운 계층 구조가 드러났다는 것입니다. 제가 올해 Y Combinator 발표에서 강조했듯이, Cursor와 같은 LLM 애플리케이션의 핵심은 특정 수직 도메인을 위해 LLM 호출을 통합하고 조정하는 데 있습니다.

  • 그들은 "컨텍스트 엔지니어링"을 담당합니다.
  • 기본적으로 여러 LLM 호출은 성능과 비용 사이의 균형을 유지하면서 점점 더 복잡한 방향성 비순환 그래프로 조정되며, "인간 루프"에 참여하는 사람들을 위해 애플리케이션별 그래픽 인터페이스가 제공됩니다.
  • 또한 "자동 조절 슬라이더"를 제공합니다.

2025년까지, 이 새로운 애플리케이션 계층의 발전 잠재력에 대한 광범위한 논의가 있었습니다. 대규모 언어 모델 플랫폼이 모든 애플리케이션을 지배하게 될까요, 아니면 대규모 언어 모델 애플리케이션에는 여전히 무궁무진한 가능성이 남아 있을까요? 제 개인적인 예측으로는 대규모 언어 모델 플랫폼의 역할이 점차 "다재다능한 대학 졸업생"을 양성하는 방향으로 수렴될 것이며, 대규모 언어 모델 애플리케이션은 이러한 "졸업생"들을 조직화하고 정제하는 역할을 담당하게 될 것입니다. 또한 개인 데이터, 센서, 액추에이터 및 피드백 루프를 제공하여 특정 분야에 배치될 수 있는 진정한 "전문 팀"으로 성장할 수 있도록 지원할 것입니다.

4. 클로드 코드: 로컬에서 실행되는 AI

클로드 코드(Claude Code)의 등장은 도구 사용과 추론 과정을 순환적으로 결합하여 더욱 지속적이고 복잡한 문제 해결을 달성하는 LLM 에이전트의 형태를 처음으로 확실하게 보여주었습니다. 더욱이, 클로드 코드가 가장 인상적이었던 점은 사용자의 개인용 컴퓨터에서 실행되어 사용자의 개인 환경, 데이터 및 컨텍스트와 깊이 통합된다는 것입니다. 저는 OpenAI의 이러한 방향에 대한 평가가 다소 잘못되었다고 생각합니다. OpenAI는 코드 어시스턴트 및 에이전트 개발을 클라우드 배포, 특히 ChatGPT로 오케스트레이션되는 컨테이너 환경에 집중했기 때문입니다. 클라우드에서 실행되는 에이전트 클러스터가 "궁극적인 범용 인공지능" 형태를 나타내는 것처럼 보일 수 있지만, 현재 우리는 역량 개발이 고르지 않고 상대적으로 느린 속도로 진행되는 과도기에 있습니다. 이러한 상황에서 개발자 및 그들의 특정 작업 환경과 긴밀하게 협력하여 로컬 컴퓨터에 에이전트를 직접 배포하는 것이 더 논리적인 방향입니다. 클로드 코드(Claude Code)는 이러한 우선순위를 정확하게 파악하고 간결하고 우아하며 매우 매력적인 명령줄 도구로 구현하여 AI를 접하는 방식을 완전히 새롭게 정의합니다. 이제 AI는 단순히 구글과 같은 웹사이트에 접속하는 것이 아니라, 컴퓨터 안에 "상주하는" 작은 스프라이트나 유령과 같은 존재입니다. 이는 AI와 상호작용하는 완전히 새롭고 독창적인 패러다임입니다.

5. 바이브 코딩 - 프로그래밍 환경

2025년까지 인공지능은 임계점을 넘어설 것이며, 기초 코드를 이해하지 못해도 영어 설명만으로 놀라운 프로그램을 만들 수 있게 될 것입니다. 흥미롭게도 저는 샤워 중에 무심코 트위터에 "바이브 코딩(Vibe Coding)"이라는 용어를 만들었는데, 지금처럼 발전할 줄은 상상도 못했습니다. 바이브 코딩 패러다임에서는 프로그래밍이 더 이상 고도로 훈련된 전문가만의 전유물이 아니라 누구나 참여할 수 있는 것이 됩니다. 이러한 관점에서 볼 때, 이는 제가 "사람들에게 힘을 실어주다: 대규모 언어 모델이 기술 확산 패턴을 어떻게 바꾸고 있는가"라는 글에서 설명한 현상의 또 다른 예입니다. 지금까지 나온 다른 모든 기술과는 극명한 대조를 이루며, 대규모 언어 모델은 전문가, 기업, 정부보다 일반인에게 더 큰 혜택을 제공합니다. 하지만 바이브 코딩은 일반인이 프로그래밍에 접근할 수 있도록 할 뿐만 아니라, 전문 개발자들이 "그렇지 않았다면 결코 구현되지 않았을" 소프트웨어를 더 많이 개발할 수 있도록 지원합니다. 나노챗을 개발하면서 저는 Vibe Coding을 사용하여 기존 라이브러리에 의존하거나 Rust 언어를 깊이 파고들지 않고도 효율적인 맞춤형 BPE 토크나이저를 Rust로 작성했습니다. 올해는 Vibe Coding을 활용하여 여러 프로젝트의 프로토타입을 빠르게 제작하고 특정 아이디어의 실현 가능성을 검증하기도 했습니다. 코드가 자유롭고, 일시적이며, 수정 가능하고, 폐기할 수 있게 되면서 특정 취약점을 찾아내기 위해 일회성 애플리케이션 전체를 작성하기도 했습니다. 분위기 중심 프로그래밍은 소프트웨어 개발 생태계를 재편하고 직업의 정의를 근본적으로 바꿀 것입니다.

6. 나노 바나나: LLM 그래픽 인터페이스

구글의 제미니 나노 바나나는 2025년 가장 혁신적인 패러다임 전환 중 하나입니다. 제 생각에는 대규모 언어 모델(LLM)이 1970년대와 80년대 컴퓨터 이후 차세대 주요 컴퓨팅 패러다임을 제시합니다. 따라서 개인용 컴퓨터, 마이크로컨트롤러, 심지어 인터넷의 발전과 유사하게, 비슷한 근본적인 이유에 기반한 혁신들을 목격하게 될 것입니다. 특히 인간-컴퓨터 상호작용 측면에서, 현재 LLM을 이용한 "대화" 방식은 1980년대 컴퓨터 터미널에 명령어를 입력하는 것과 매우 유사합니다. 텍스트는 컴퓨터(및 LLM)에게 가장 기본적인 데이터 표현 방식이지만, 인간(특히 입력 시)에게는 선호하는 방식이 아닙니다. 인간은 텍스트 읽기를 싫어합니다. 느리고 고된 작업이기 때문입니다. 대신 인간은 시각적이고 공간적인 차원을 통해 정보를 얻는 것을 선호하며, 이것이 바로 전통적인 컴퓨팅에서 그래픽 사용자 인터페이스(GUI)가 탄생한 이유입니다. 마찬가지로, 대규모 언어 모델은 이미지, 인포그래픽, 슬라이드, 화이트보드, 애니메이션, 비디오, 웹 애플리케이션 및 기타 미디어와 같이 인간이 선호하는 형태로 우리와 소통해야 합니다. 초기 형태는 이미 이모지나 마크다운(예: 제목, 굵게 표시, 목록, 표 및 기타 타이포그래피 요소)과 같은 "시각적 텍스트 장식"을 통해 이를 달성했습니다. 하지만 궁극적으로 누가 대규모 언어 모델을 위한 그래픽 인터페이스를 구축할까요? 이러한 관점에서 나노 바나나는 미래의 청사진을 보여주는 초기 프로토타입입니다. 나노 바나나의 혁신은 이미지 생성 기능뿐만 아니라 텍스트 생성, 이미지 생성, 그리고 모델 가중치에 내재된 세계 지식을 통합한 포괄적인 기능에 있다는 점에 주목할 필요가 있습니다.

공유하기:

작성자: Tim

이 글은 PANews 입주 칼럼니스트의 관점으로, PANews의 입장을 대표하지 않으며 법적 책임을 지지 않습니다.

글 및 관점은 투자 조언을 구성하지 않습니다

이미지 출처: Tim 침해가 있는 경우 저자에게 삭제를 요청하세요.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
17분 전
1시간 전
3시간 전
4시간 전
4시간 전
5시간 전
관련 특집
24개의 기사

인기 기사

업계 뉴스
시장 핫스팟
엄선된 읽을거리

엄선 특집

App内阅读