원저자: Malika Aubakirova, Matt Bornstein, a16z crypto
원문 번역: Deep Tide TechFlow
크리스토퍼 놀란 감독의 영화 <메멘토>에서 주인공 레너드 셸비는 파편화된 현재 속에 갇혀 산만하게 살아간다. 뇌 손상으로 인해 전향성 기억상실증에 걸린 그는 새로운 기억을 형성할 수 없다. 몇 분마다 그의 세상은 초기화되어 영원한 "현재"에 갇히게 되고, 방금 일어난 일이나 다음에 일어날 일을 기억하지 못한다. 살아남기 위해 그는 문신을 새기고 폴라로이드 사진을 찍는다. 이러한 외적인 도구들을 통해 뇌의 기억 유지 능력 부족을 보완하려는 것이다.
대규모 언어 모델 역시 이와 유사한 영구적인 상태에 머물러 있습니다. 학습 후 방대한 양의 지식이 매개변수에 고정되어 모델이 새로운 기억을 형성하거나 새로운 경험에 따라 매개변수를 업데이트할 수 없게 됩니다. 이러한 한계를 보완하기 위해 우리는 여러 가지 보조 장치를 구축했습니다. 채팅 기록은 단기 메모 역할을 하고, 검색 시스템은 외부 노트북처럼 작동하며, 시스템 프롬프트는 마치 문신처럼 정보를 저장합니다. 하지만 모델 자체는 이러한 새로운 정보를 진정으로 내면화하지 못합니다.
점점 더 많은 연구자들이 이러한 방식이 불충분하다고 생각합니다. 맥락 학습(ICL)은 답(또는 답의 일부)이 이미 세상 어딘가에 존재한다고 가정하는 문제를 해결할 수 있습니다. 그러나 진정한 발견(예: 완전히 새로운 수학적 증명), 적대적 시나리오(예: 보안 공격 및 방어), 또는 말로 표현하기에는 너무 암묵적인 지식이 필요한 문제의 경우, 모델이 배포 후 새로운 지식과 경험을 매개변수에 직접 통합하는 방법이 필요하다는 강력한 근거가 있습니다.
컨텍스트 기반 학습은 일시적입니다. 진정한 학습에는 압축이 필수적입니다. 모델이 지속적으로 압축할 수 있도록 하지 않는 한, 우리는 영화 <메멘토>처럼 영원한 현재에 갇히게 될지도 모릅니다. 반대로, 외부의 맞춤형 도구에 의존하는 대신 모델이 자체 메모리 아키텍처를 학습하도록 훈련시킬 수 있다면, 확장성의 새로운 차원을 열어줄 수 있을 것입니다.
이 연구 분야는 지속적 학습(continuous learning) 이라고 불립니다. 이 개념 자체는 새로운 것이 아니지만(맥클로스키와 코헨의 1989년 논문 참조), 오늘날 인공지능 분야에서 가장 중요한 연구 방향 중 하나라고 생각합니다. 지난 2~3년간 모델 기능이 폭발적으로 증가하면서 모델이 "알고 있는 것"과 "알 수 있는 것" 사이의 격차가 점점 더 분명해지고 있습니다. 이 글에서는 이 분야의 최고 연구자들이 제시한 지식을 공유하고, 지속적 학습에 이르는 다양한 경로를 명확히 하며, 스타트업 생태계 내에서 이 주제를 널리 알리는 데 기여하고자 합니다.
참고: 이 글은 지속적 학습 분야에서 뛰어난 연구자, 박사 과정 학생, 기업가들과의 심도 있는 교류를 통해 완성되었습니다. 이분들은 이론적 토대부터 실제 적용 후 학습의 엔지니어링 현실에 이르기까지, 저희가 혼자서는 결코 쓸 수 없었을 만큼 풍부한 통찰력을 제공해 주셨습니다. 시간과 아이디어를 나눠주셔서 진심으로 감사드립니다!
먼저 맥락부터 살펴보겠습니다.
매개변수 학습(즉, 모델 가중치를 업데이트하는 방법을 학습하는 것)을 옹호하기 전에, 맥락적 학습이 실제로 효과가 있다는 사실을 인정해야 합니다. 그리고 맥락적 학습이 앞으로도 계속해서 우위를 점할 것이라는 강력한 주장이 있습니다.
트랜스포머의 핵심은 시퀀스에 기반한 조건부 토큰 예측기입니다. 올바른 시퀀스를 입력하면 가중치를 건드리지 않고도 놀라울 정도로 풍부한 동작을 구현할 수 있습니다. 이것이 바로 컨텍스트 관리, 힌트 엔지니어링, 명령어 미세 조정, 소량 예제 활용과 같은 방법들이 강력한 이유입니다. 지능은 정적 매개변수에 캡슐화되어 있으며, 윈도우에 입력되는 데이터에 따라 나타나는 기능은 극적으로 달라집니다.
Cursor가 최근 발표한 자율 프로그래밍 에이전트 확장 관련 심층 분석 기사가 좋은 예입니다. 모델 가중치는 고정되어 있으며, 시스템을 실제로 작동시키는 것은 컨텍스트를 신중하게 구성하는 것, 즉 무엇을 입력할지, 언제 요약을 수행할지, 그리고 몇 시간 동안 자율적으로 작동하는 동안 일관된 상태를 유지하는 방법입니다.
OpenClaw도 좋은 예입니다. OpenClaw의 인기는 특별한 모델 접근 권한 때문이 아니라(기반 모델은 누구나 이용 가능함), 컨텍스트와 도구를 매우 효율적으로 작동 가능한 상태로 변환하기 때문입니다. 즉, 사용자의 작업을 추적하고, 중간 결과물을 구조화하고, 단서를 다시 삽입할 시점을 결정하고, 이전 작업에 대한 영구적인 기억을 유지합니다. OpenClaw는 지능형 에이전트의 "껍데기 디자인"을 독립적인 학문 분야로 끌어올렸습니다.
제안 엔지니어링이 처음 등장했을 때, 많은 연구자들은 "단어 제안만으로" 제대로 된 인터페이스가 될 수 있을지 회의적이었습니다. 마치 편법처럼 보였죠. 하지만 이는 Transformer 아키텍처의 핵심 기능으로, 재학습이 필요 없고 모델이 향상됨에 따라 자동으로 업그레이드됩니다. 모델이 강력할수록 제안도 더욱 강력해집니다. "단순하지만 핵심적인" 인터페이스는 시스템과 직접적으로 연결되어 있기 때문에, 시스템과 충돌하지 않고 오히려 원활하게 작동하기 때문에 성공하는 경우가 많습니다. 이것이 바로 현재까지 LLM 개발이 나아가고 있는 방향입니다.
상태 공간 모델: 컨텍스트의 강화 버전
주류 워크플로가 단순 LLM 호출에서 상담원 루프로 전환됨에 따라 컨텍스트 학습 모델은 점점 더 많은 압력을 받고 있습니다. 이전에는 컨텍스트 창이 완전히 채워지는 경우가 비교적 드물었습니다. 이는 일반적으로 LLM이 일련의 개별 작업을 완료해야 할 때 발생했으며, 이를 통해 애플리케이션 계층은 채팅 기록을 보다 직접적으로 정리하고 압축할 수 있었습니다.
하지만 에이전트의 경우, 단일 작업이 사용 가능한 전체 컨텍스트의 상당 부분을 소모할 수 있습니다. 에이전트 루프의 각 단계는 이전 반복에서 전달된 컨텍스트에 의존합니다. 더욱이, 컨텍스트가 복잡해지고 일관성이 저하되어 수렴이 실패하는 "스레드 중단" 현상 때문에 에이전트는 20~100단계 후에 종종 실패합니다.
따라서 주요 AI 연구소들은 현재 매우 긴 컨텍스트 윈도우를 처리하는 모델 개발에 막대한 투자(즉, 대규모 학습 실행)를 하고 있습니다. 이는 이미 효과적인 방법(컨텍스트 학습)을 기반으로 하고, 연산 시간을 추론 시간으로 옮기려는 업계의 주요 트렌드와도 부합하는 자연스러운 흐름입니다. 가장 일반적인 아키텍처는 일반적인 어텐션 헤드 사이에 고정 메모리 레이어를 배치하는 방식으로, 상태 공간 모델(SSM)과 선형 어텐션 변형(이하 통칭하여 SSM)이 사용됩니다. SSM은 긴 컨텍스트 시나리오에서 근본적으로 더 나은 확장성을 제공합니다.

캡션: SSM과 기존 어텐션 메커니즘 간의 스케일링 비교
목표는 기존 트랜스포머가 제공하는 광범위한 기술과 지식을 유지하면서 에이전트의 연속 단계 수를 약 20단계에서 약 20,000단계로 몇 배나 늘리는 것입니다. 만약 성공한다면, 이는 장시간 실행되는 에이전트 분야에 있어 중대한 돌파구가 될 것입니다.
이러한 접근 방식을 지속적인 학습의 한 형태로 생각할 수도 있습니다. 모델 가중치는 업데이트되지 않지만, 거의 재설정이 필요 없는 외부 메모리 계층이 도입되기 때문입니다.
그러므로 이러한 비모수적 방법들은 실질적이고 강력합니다. 지속적 학습에 대한 평가는 바로 여기서부터 시작되어야 합니다. 오늘날의 맥락 기반 시스템이 유용한지 여부가 문제가 아니라, 우리가 이미 한계에 도달했는지, 그리고 새로운 방법들이 우리를 더 나아가게 할 수 있는지가 문제입니다.
문맥에서 빠진 것: "서류함 오류"
"인공 일반 지능(AGI)과 사전 훈련의 문제점은, 어떤 의미에서는 지나치게 발전한다는 것입니다... 인간은 AGI가 아닙니다. 물론 인간도 기본적인 기술은 갖추고 있지만, 방대한 지식을 갖추지는 못했습니다. 우리가 의존하는 것은 지속적인 학습입니다."
만약 제가 초지능 15세 소년을 만든다면, 그는 아무것도 모를 겁니다. 배우려는 열정이 넘치는 모범생일 뿐이죠. 프로그래머가 되라는 말이나 의사가 되라는 말처럼 말입니다. 배포 그 자체도 학습과 시행착오의 과정입니다. 완성된 제품을 그냥 내놓는 게 아니라, 하나의 과정인 거죠. —일리야 수츠케버
저장 공간이 무한한 시스템을 상상해 보세요. 세상에서 가장 큰 파일 캐비닛처럼, 모든 정보가 완벽하게 색인화되어 즉시 검색 가능한 시스템 말입니다. 무엇이든 찾아낼 수 있죠. 하지만 그 시스템은 무엇을 배웠을까요?
아니요. 강제로 압축된 적은 없습니다.
이것이 바로 일리야 수츠케버가 이전에 지적했던 요점을 인용한 우리의 주장의 핵심입니다. LLM은 본질적으로 압축 알고리즘입니다. 학습 과정에서 LLM은 인터넷을 매개변수로 압축합니다. 압축은 손실 압축이며, 바로 이 손실 압축 특성 때문에 강력한 성능을 발휘합니다. 압축은 모델이 구조를 찾아내고, 일반화하며, 다양한 맥락에서 적용 가능한 표현을 구축하도록 만듭니다. 모든 학습 샘플을 암기하는 모델은 숨겨진 패턴을 추출하는 모델보다 효율성이 떨어집니다. 손실 압축 그 자체가 일종의 학습입니다.
아이러니하게도, LLM을 학습 과정에서 강력하게 만드는 바로 그 메커니즘(원시 데이터를 압축하여 전송 가능한 형태로 변환하는 것)이 바로 배포 후에는 더 이상 사용되지 않도록 하는 요소입니다. 따라서 출시와 동시에 압축 기능을 중단하고 외부 메모리로 대체했습니다.
물론 대부분의 에이전트 셸은 자체적인 방식으로 컨텍스트를 압축합니다. 하지만 뼈아픈 교훈을 통해 우리는 모델 자체가 이러한 압축 방식을 직접적이고 대규모로 학습해야 한다는 것을 깨닫지 못했습니까?
유순은 이 논쟁을 설명하기 위해 수학의 예를 들었습니다. 페르마의 마지막 정리를 생각해 보세요. 350년이 넘는 세월 동안 어떤 수학자도 이 정리를 증명하지 못했는데, 이는 정확한 자료가 부족해서가 아니라 해법이 너무나 참신했기 때문입니다. 기존의 수학적 지식과 최종 해법 사이의 개념적 간극이 너무 컸던 것입니다.
앤드류 와일스가 마침내 1990년대에 이 문제를 해결했을 때, 그는 거의 고립된 채 7년 동안 연구에 매진하며 해답을 도출하기 위해 완전히 새로운 기법들을 고안해냈습니다. 그의 증명은 타원 곡선과 모듈러 형식이라는 두 가지 서로 다른 수학 분야를 성공적으로 연결하는 데 기반을 두고 있었습니다. 켄 리벳은 이전에 이러한 연결을 확립하면 페르마의 마지막 정리가 자동으로 해결된다는 것을 증명했지만, 와일스 이전에는 누구도 실제로 이 연결을 구축할 이론적 도구를 가지고 있지 않았습니다. 그리고리 페렐만의 푸앵카레 추측 증명도 이와 유사한 방식으로 설명될 수 있습니다.
핵심 질문은 이것입니다. 이러한 사례들이 LLM에 무언가 부족한 점, 즉 기존 지식을 업데이트하고 진정으로 창의적인 사고를 하는 능력이 결여되어 있음을 증명하는가? 아니면 이 이야기가 오히려 정반대의 결론, 즉 모든 인간의 지식은 훈련과 재구성이 가능한 데이터에 불과하며, 와일스와 페렐만은 단지 LLM이 더 큰 규모로 무엇을 할 수 있는지를 보여준 것일 뿐이라는 결론을 입증하는가?
이는 경험적인 질문이며, 답은 아직 불확실합니다. 하지만 오늘날 많은 유형의 문제에서 맥락적 학습이 실패하는 반면, 매개변수적 학습은 유용할 수 있다는 것은 알고 있습니다. 예를 들면 다음과 같습니다.

설명: 컨텍스트 학습이 실패하고 파라미터 학습이 성공할 수 있는 문제 범주.
더 중요한 것은, 문맥 학습은 언어로 표현될 수 있는 것만 처리할 수 있는 반면, 가중치는 단서 단어로는 전달할 수 없는 개념을 인코딩할 수 있다는 점입니다. 어떤 패턴은 너무 고차원적이거나, 너무 암묵적이거나, 너무 심층적으로 구조화되어 있어 문맥에 맞추기 어렵습니다. 예를 들어, 의료 영상에서 양성 병변과 종양을 구분하는 시각적 질감이나 화자의 고유한 리듬을 정의하는 미세한 음향적 변동은 정확한 단어로 쉽게 분해할 수 없습니다.
언어는 단지 그것들을 근사적으로 표현할 수 있을 뿐입니다. 아무리 긴 프롬프트라도 이러한 것들을 완전히 전달할 수는 없습니다. 이러한 종류의 지식은 가중치 형태로만 존재할 수 있습니다. 그것들은 단어가 아닌 학습된 표상의 잠재 공간에 존재합니다. 컨텍스트 윈도우가 아무리 커지더라도 텍스트로는 설명할 수 없고 매개변수로만 전달할 수 있는 지식이 항상 존재할 것입니다.
이는 ChatGPT의 기억 기능처럼 명시적인 "봇이 사용자를 기억합니다" 기능이 사용자를 기쁘게 하기보다는 불편하게 만드는 이유를 설명해 줄 수 있습니다. 사용자가 진정으로 원하는 것은 "기억"이 아니라 "능력"입니다. 사용자의 행동 패턴을 내면화한 모델은 새로운 시나리오에도 적용할 수 있지만, 단순히 과거 기록만 기억하는 모델은 그렇지 못합니다. "이것은 당신이 마지막으로 이 이메일에 답장했을 때 쓴 내용입니다"(단어 하나하나 그대로)와 "당신의 사고 과정을 충분히 이해해서 당신의 요구를 예측할 수 있습니다"의 차이는 기억 검색과 학습의 차이입니다.
지속적인 학습 시작하기
지속적인 학습에는 여러 가지 경로가 있습니다. 구분 기준은 메모리 기능의 유무가 아니라 압축이 발생하는 위치입니다. 이러한 경로는 압축이 전혀 없는 방식(순수 검색, 가중치 고정)부터 완전한 내부 압축 방식(가중치 수준 학습, 모델의 지능화)까지 스펙트럼 상에 분포하며, 그 중간에 중요한 영역(모듈)이 존재합니다.

설명: 지속적인 학습을 위한 세 가지 경로 - 맥락, 모듈, 그리고 비중.
문맥
컨텍스트 측면에서, 팀은 더욱 스마트한 검색 파이프라인, 에이전트 셸, 그리고 단서 단어 오케스트레이션을 구축하고 있습니다. 이는 가장 성숙한 영역으로, 인프라가 검증되었고 배포 경로도 명확합니다. 다만, 컨텍스트의 길이, 즉 깊이 측면에서 한계가 있습니다.
주목할 만한 새로운 방향은 컨텍스트 자체의 확장 전략으로서 다중 에이전트 아키텍처입니다. 단일 모델이 128,000 토큰 윈도우에 제한된다면, 각 에이전트가 자체 컨텍스트를 보유하고 문제의 특정 부분에 집중하며 서로 결과를 주고받는 조정된 에이전트 군집은 전체적으로 거의 무한대의 작업 메모리를 활용할 수 있습니다. 각 에이전트는 자신의 윈도우 내에서 컨텍스트를 학습하고, 시스템은 이를 통합합니다. Karpathy의 최근 자율 연구 프로젝트와 Cursor의 웹 브라우저 구축 사례가 초기 예시입니다. 이는 가중치를 변경하지 않는 순전히 비매개변수적 접근 방식이지만, 컨텍스트 기반 시스템이 달성할 수 있는 최대치를 크게 높입니다.
기준 치수
모듈 공간 내에서, 팀은 플러그형 지식 모듈(압축 키-값 캐시, 어댑터 계층 및 외부 메모리 저장소)을 구축하여 범용 모델이 재학습 없이 특정 기능에 특화될 수 있도록 합니다. 적절한 모듈을 갖춘 8B 모델은 목표 작업에서 109B 모델과 동등한 성능을 발휘하면서도 메모리 사용량은 훨씬 적습니다. 이러한 모델의 매력은 기존 Transformer 인프라와의 호환성에 있습니다.
무게
가중치 업데이트 측면에서 연구자들은 진정한 파라미터 수준 학습을 추구하고 있습니다. 여기에는 관련 파라미터 조각만 업데이트하는 희소 메모리 레이어, 피드백을 통해 모델을 최적화하는 강화 학습 루프, 추론 중에 컨텍스트를 가중치에 압축하는 테스트 타임 학습 등이 포함됩니다. 이러한 방법들은 가장 심층적인 학습 방식이며 구현하기 가장 어렵지만, 모델이 새로운 정보나 기술을 완전히 내면화할 수 있도록 해줍니다.
매개변수 업데이트를 위한 다양한 구체적인 메커니즘이 있습니다. 다음은 몇 가지 연구 방향입니다.

캡션: 가중 학습 연구 방향 개요
가중 시스템에 대한 연구는 여러 병렬적 접근 방식을 포괄합니다. 정규화 및 가중 공간 방법은 가장 오랜 역사를 가지고 있습니다. EWC(Kirkpatrick et al., 2017)는 이전 작업에 대한 중요도를 기반으로 매개변수 변화에 페널티를 부여하고, 가중 보간(Kozal et al., 2024)은 매개변수 공간에서 새로운 가중치 구성과 기존 가중치 구성을 혼합하지만, 두 방법 모두 대규모 시스템에서는 비교적 취약합니다.
테스트 중 훈련은 Sun et al.(2020)에 의해 개척되었으며 이후 완전히 다른 접근 방식을 통해 아키텍처 기본 요소(TTT 레이어, TTT-E2E, TTT-Discover)로 발전했습니다. 즉, 테스트 데이터에 대한 경사 하강법을 수행하고 필요한 순간에 새로운 정보를 매개변수로 압축합니다.
메타 학습은 "학습하는 방법"을 아는 모델을 훈련시킬 수 있는지에 대한 질문을 던집니다. MAML(Finn et al., 2017)의 소수 데이터 처리에 적합한 매개변수 초기화부터 Behrouz et al.의 중첩 학습(Nested Learning, 2025)에 이르기까지, 후자는 생물학적 기억 통합에서 영감을 받아 모델을 계층적 최적화 문제로 구성하고, 다양한 시간 척도에서 빠르게 적응하고 느리게 업데이트하는 모듈을 실행합니다.
증류(Distillation)는 학생 모델이 고정된 교사 체크포인트와 일치하도록 함으로써 이전 작업에 대한 지식을 보존합니다. LoRD(Liu et al., 2025)는 모델과 리플레이 버퍼를 동시에 가지치기하여 증류를 지속적으로 실행할 수 있을 만큼 효율적으로 만듭니다. 자기 증류(Self-distillation, SDFT, Shenfeld et al., 2026)는 소스 방식을 바꾸어 전문가 조건에서의 모델 자체 출력을 훈련 신호로 사용함으로써 순차적 미세 조정의 심각한 망각 문제를 해결합니다.
재귀적 자기 개선은 유사한 아이디어를 기반으로 작동합니다. STaR(Zelikman et al., 2022)는 자체 생성된 추론 체인을 통해 추론 능력을 안내하고, AlphaEvolve(DeepMind, 2025)는 수십 년 동안 개선되지 않은 알고리즘 최적화를 발견하며, Silver와 Sutton의 "경험의 시대"(2025)는 에이전트 학습을 끝없이 이어지는 경험의 흐름으로 정의합니다.
이러한 연구 방향들이 수렴하고 있습니다. TTT-Discover는 테스트 시간 학습과 강화 학습 기반 탐색을 통합했고, HOPE는 단일 아키텍처 내에 빠른 학습 루프와 느린 학습 루프를 중첩시켰습니다. SDFT는 증류 과정을 근본적인 자체 개선 작업으로 전환했습니다. 각 분야 간의 경계가 모호해지고 있습니다. 차세대 연속 학습 시스템은 안정화를 위한 정규화, 가속을 위한 메타 학습, 그리고 누적 효과를 위한 자체 개선 등 여러 전략을 결합할 가능성이 높습니다. 점점 더 많은 스타트업들이 이러한 기술 스택의 다양한 계층에 투자하고 있습니다.
창업 환경에 대한 지속적인 학습
비매개변수적 접근 방식이 가장 널리 알려져 있습니다. Letta, mem0, Subconscious와 같은 쉘(shell) 회사들은 컨텍스트 윈도우에 배치된 콘텐츠를 관리하기 위한 오케스트레이션 레이어와 스캐폴딩을 구축합니다. Pinecone, xmemory와 같은 외부 스토리지 및 RAG 인프라는 데이터 검색의 핵심 역할을 합니다. 데이터는 이미 존재하며, 문제는 적절한 시점에 모델 앞에 적절한 데이터를 배치하는 것입니다. 컨텍스트 윈도우가 확장됨에 따라 이러한 회사들의 설계 공간도 커지고 있으며, 특히 쉘 측에서는 점점 더 복잡해지는 컨텍스트 전략을 관리하는 새로운 스타트업들이 등장하고 있습니다.
매개변수는 더 일찍, 더 다양하게 나타납니다. 이 회사는 일종의 "배포 후 압축"을 실험하고 있는데, 이를 통해 모델이 가중치 내에 새로운 정보를 내재화할 수 있습니다. 모델은 배포 후 "어떻게" 학습해야 하는지에 대한 여러 가지 접근 방식으로 크게 나눌 수 있습니다.
부분 압축: 재학습 없이 학습하기. 일부 팀은 범용 모델이 핵심 가중치를 변경하지 않고도 특정 기능에 특화될 수 있도록 플러그형 지식 모듈(압축된 키-값 캐시, 어댑터 레이어, 외부 메모리 저장소)을 개발하고 있습니다. 일반적인 주장은 학습이 매개변수 공간 전체에 분산되지 않고 독립적으로 이루어지기 때문에 안정성과 유연성 간의 균형을 유지하면서 의미 있는 압축(단순 검색뿐만 아니라)을 달성할 수 있다는 것입니다. 적절한 모듈을 갖춘 8B 모델은 목표 작업에서 훨씬 더 큰 모델과 동등한 성능을 낼 수 있습니다. 장점은 구성 가능성입니다. 모듈은 기존 Transformer 아키텍처와 플러그 앤 플레이 방식으로 호환되고, 독립적으로 교체 또는 업데이트할 수 있으며, 실험 비용은 재학습보다 훨씬 저렴합니다.
강화 학습과 피드백 루프: 신호로부터의 학습. 일부 팀은 배포 후 학습을 위한 가장 풍부한 신호가 이미 배포 루프 자체 내에 존재한다고 보고 있습니다. 여기에는 사용자 수정, 작업 성공 및 실패, 실제 결과에서 비롯된 보상 신호가 포함됩니다. 핵심 아이디어는 모델이 모든 상호 작용을 단순한 추론 요청이 아닌 잠재적인 학습 신호로 취급해야 한다는 것입니다. 이는 인간이 업무 능력을 향상시키는 방식과 매우 유사합니다. 즉, 업무를 수행하고, 피드백을 받고, 어떤 방법이 효과적인지 내면화하는 것입니다. 엔지니어링 과제는 희소하고, 잡음이 많으며, 때로는 적대적인 피드백을 치명적인 망각 없이 안정적인 가중치 업데이트로 변환하는 데 있습니다. 하지만 배포를 통해 진정으로 학습하는 모델은 컨텍스트 기반 시스템이 할 수 없는 방식으로 누적적인 가치를 창출할 것입니다.
데이터 중심적 접근: 올바른 신호로부터 학습하기. 이와 관련되면서도 구별되는 접근 방식은 병목 현상이 학습 알고리즘 자체가 아니라 훈련 데이터와 주변 시스템에 있다는 것입니다. 이러한 팀은 지속적인 업데이트를 유도하기 위해 올바른 데이터를 선별, 생성 또는 합성하는 데 집중합니다. 즉, 고품질의 잘 구조화된 학습 신호를 가진 모델은 의미 있는 개선을 위해 훨씬 적은 단계의 경사 하강법만으로도 충분하다는 가정을 기반으로 합니다. 이는 피드백 루프를 활용하는 기업과 자연스럽게 연결되지만, 모델이 학습할 수 있는지 여부와 무엇을 학습해야 하는지, 그리고 어느 정도까지 학습해야 하는지와 같은 근본적인 문제에 초점을 맞춥니다.
새로운 아키텍처: 학습 기능을 처음부터 새롭게 설계. 가장 급진적인 주장은 트랜스포머 아키텍처 자체가 병목 현상이며, 지속적인 학습을 위해서는 근본적으로 다른 컴퓨팅 기본 요소, 즉 연속 시간 동역학과 내장 메모리 메커니즘을 갖춘 아키텍처가 필요하다는 것입니다. 여기서 핵심은 구조적인 접근입니다. 지속적인 학습 시스템을 원한다면 학습 메커니즘을 기본 인프라에 내장해야 한다는 것입니다.

캡션: 지속적 학습 스타트업 현황
모든 주요 연구소들이 이러한 분야에서 활발하게 활동하고 있습니다. 일부는 컨텍스트 관리 및 사고 연쇄 추론 개선을 연구하고, 다른 일부는 외부 메모리 모듈이나 슬립 시간 연산 파이프라인을 실험하고 있으며, 몇몇 비밀리에 운영되는 기업들은 새로운 아키텍처를 개발하고 있습니다. 이 분야는 아직 초기 단계이기 때문에 어느 한 가지 접근 방식이 아직 완전히 승리하지 않았으며, 다양한 활용 사례를 고려할 때 단 하나의 승자만 나타나기는 어려울 것입니다.
단순한 가중치 업데이트 방식이 실패하는 이유는 무엇일까요?
운영 환경에서 모델 매개변수를 업데이트하면 현재 대규모로 해결되지 않은 일련의 오류가 발생할 수 있습니다.

캡션: 단순 가중치 업데이트의 실패 모드
공학적 문제점은 잘 알려져 있습니다. 파괴적 망각은 새로운 데이터로부터 학습할 만큼 민감한 모델이 기존 표현을 파괴할 수 있음을 의미하는데, 이를 안정성-가소성 딜레마라고 합니다. 시간적 분리는 불변 규칙과 가변 상태가 동일한 가중치 집합에 압축되어 하나를 업데이트하면 다른 하나가 손상되는 현상을 말합니다. 논리적 통합은 사실 업데이트가 추론에 반영되지 않기 때문에 실패합니다. 즉, 변경 사항이 토큰 시퀀스 수준에만 국한되고 의미 개념 수준에는 반영되지 않습니다. 학습 해제는 여전히 불가능합니다. 미분 가능한 뺄셈 연산이 없으므로 잘못되거나 유해한 지식을 정확하게 제거하는 수술적 방법이 없습니다.
상대적으로 주목을 덜 받는 두 번째 유형의 문제가 있습니다. 현재 교육과 배포의 분리는 단순히 엔지니어링 편의를 위한 것이 아니라, 보안, 감사 가능성 및 거버넌스의 경계를 나타냅니다. 이 경계를 허물면 여러 가지 문제가 동시에 발생할 수 있습니다. 보안 정렬은 예측할 수 없이 저하될 수 있으며, 심지어 무해한 데이터에 대한 미세한 조정조차도 광범위한 정렬 불량을 초래할 수 있습니다.
지속적인 업데이트는 데이터 오염 공격 표면을 생성합니다. 즉, 가중치 내에 잠재된 힌트가 느리고 지속적인 형태로 존재하는 것입니다. 지속적으로 업데이트되는 모델은 끊임없이 변화하는 대상이기 때문에 감사 가능성이 무너집니다. 버전 관리, 회귀 테스트 또는 일회성 인증이 불가능해지기 때문입니다. 사용자 상호 작용이 매개변수로 압축될 경우 개인 정보 보호 위험이 더욱 악화됩니다. 민감한 정보가 표현에 포함되어 컨텍스트에서 추출한 정보보다 필터링하기가 더 어려워지기 때문입니다.
이것들은 근본적으로 불가능한 질문이 아니라, 해결되지 않은 질문들입니다. 핵심적인 건축적 과제를 해결하는 것과 마찬가지로, 이러한 질문들을 해결하는 것 또한 지속적인 학습과 연구의 일환입니다.
"기억의 조각들"에서 진정한 기억으로
영화 <메멘토>에서 레너드의 비극은 그가 제대로 기능하지 못하는 데 있는 것이 아닙니다. 그는 모든 장면에서 재치 있고 심지어 천재적이기까지 합니다. 그의 비극은 지식을 축적할 수 없다는 데 있습니다. 모든 경험은 폴라로이드 사진, 문신, 다른 사람의 손글씨로 쓰인 쪽지처럼 외부적인 것에 머물러 있습니다. 그는 정보를 검색할 수는 있지만, 새로운 지식을 압축할 수는 없습니다.
레너드가 스스로 만들어낸 미로를 헤쳐나가면서 현실과 믿음의 경계는 모호해지기 시작한다. 그의 병은 단순히 기억을 앗아가는 것 이상으로, 그로 하여금 끊임없이 의미를 재구성하게 만들고 , 결국 그는 자신의 이야기 속에서 탐정이면서 동시에 믿을 수 없는 화자가 된다.
오늘날의 AI는 동일한 제약 조건 하에서 작동합니다. 우리는 엄청나게 강력한 검색 시스템을 구축했습니다. 더 긴 컨텍스트 창, 더 똑똑한 셸, 협력적인 다중 에이전트 군집 등이 그것입니다. 그리고 이러한 시스템은 작동합니다. 하지만 검색은 학습이 아닙니다. 어떤 사실이든 검색할 수 있는 시스템은 구조를 찾으려는 노력을 기울이지 않습니다. 일반화하려는 노력도 하지 않습니다. 학습을 매우 강력하게 만드는 손실 압축, 즉 원시 데이터를 전송 가능한 표현으로 변환하는 메커니즘은 배포하는 순간 바로 꺼져버립니다.
앞으로 나아갈 길은 단일한 돌파구가 아니라 계층화된 시스템일 가능성이 높습니다. 맥락 기반 학습은 적응형 방어의 최전선으로 남을 것입니다. 이는 본래부터 존재해 왔고, 검증되었으며, 끊임없이 발전하고 있기 때문입니다. 모듈형 메커니즘은 개인화와 영역 전문성 사이의 균형을 담당할 수 있습니다.
하지만 발견, 적대적 적응, 그리고 말로 표현할 수 없는 암묵적 지식과 같은 진정으로 어려운 문제의 경우, 모델이 훈련 후에도 경험을 매개변수에 계속 압축할 수 있도록 해야 할 수도 있습니다. 이는 희소 아키텍처, 메타 학습 목표, 그리고 자기 개선 루프의 발전을 의미합니다. 또한 "모델"의 의미를 재정의해야 할 수도 있습니다. 즉, 고정된 가중치 집합이 아니라 메모리, 업데이트 알고리즘, 그리고 자신의 경험으로부터 추상화하는 능력을 포함하는 진화하는 시스템으로 정의해야 할 것입니다.
서류 캐비닛은 점점 더 커지고 있습니다. 하지만 아무리 큰 서류 캐비닛이라도 결국엔 그저 서류 캐비닛일 뿐입니다. 진정한 혁신은 배포 후 학습 과정에서 모델을 강력하게 만드는 요소, 즉 압축, 추상화, 그리고 학습에 있습니다. 우리는 기억상실증에 걸린 모델에서 희미한 경험이라도 간직한 모델로 나아가는 전환점에 서 있습니다. 그렇지 않으면 우리는 파편화된 기억 속에 갇히게 될 것입니다.

