저자: 맥스, 항상 여행 중, 01Founder
만약 우리가 2025년 OpenAI의 진행 상황을 요약해서 쓴다면, 많은 사람들은 아마도 별다른 사건 없이 , 혹은 다소 소극적인 상태 였다고 묘사할 것입니다.
지난 한 해 동안 그들은 o3pro부터 o4mini에 이르는 일련의 추론 모델과 GPT-4.5 및 GPT-5와 같은 새로운 기반 모델을 출시하면서 논리적 추론 경로를 꾸준히 발전시켜 왔습니다.
하지만 일반 사용자들이 가장 쉽게 인지하고 자연스럽게 확산될 가능성이 높은 시각적 콘텐츠 생성 분야에서는 그들의 존재감이 점차 줄어들고 있다.
소라 출시 당시의 충격 이후, 오픈AI는 이 분야에서 장기간 침묵을 지키고 있는 것으로 보인다.
한편, 테이블에 앉아 있던 다른 사람들도 가만히 있지 않았다.
오픈 소스 생태계에서 Flux와 같은 모델은 고품질 로컬 그래프 출력을 가로막던 장벽을 완전히 허물었습니다.
상업적인 측면에서 보면, 기존 경쟁업체들이 극도의 미적 장벽을 유지할 뿐만 아니라, 온라인 검색 기능이 내장된 나노바나나와 같은 신규 업체들도 등장했습니다.
이에 비해 OpenAI의 주요 원본 이미지 모델인 GPT-Image-1.5는 이미 구식으로 보입니다.
이미지 품질이 떨어지고 레이아웃이 경직되어 있을 뿐만 아니라, 복잡한 텍스트를 처리할 때 자주 오류가 발생합니다.
점차 업계 내에서 합의가 형성되었다.
OpenAI는 시각 생성 분야에서 기술적 병목 현상에 직면했으며, 여러 경쟁 업체와의 경쟁에서 뒤처지지 않기 위해 고군분투하고 있습니다.
몇 주 전까지만 해도 전환점은 아주 미묘한 방식으로 나타났습니다.
'덕트 테이프'라는 코드명을 가진 정체불명의 이미지 모델이 대형 모델용 블라인드 테스트 플랫폼으로 잘 알려진 LM Arena에 조용히 침투했습니다.
블라인드 테스트에 참여한 사용자들은 무언가 잘못되었다는 것을 금방 알아차렸습니다.
이 모델은 극단적인 이미지 크기를 매우 정밀하게 제어할 뿐만 아니라, 많은 양의 다국어 텍스트가 포함된 레이아웃 포스터도 오류 없이 출력할 수 있습니다. 심지어 이미지를 출력하기 전에 보이지 않는 논리적 계획 과정을 거치는 것처럼 보입니다.
한동안 여러 기술 커뮤니티에서는 어느 회사가 이 중대한 움직임을 비밀리에 시작했는지 추측했지만, OpenAI는 침묵을 지켰습니다.
오늘 아침 일찍 마침내 진실이 밝혀졌습니다.
OpenAI는 장황한 출시 행사나 과도한 마케팅 홍보 없이, 코드명 "tape"로 알려진 모델을 ChatGPT GPT-Image-2라고 직접 명명하고 시장에 출시했습니다.
또한 다소 숨 막힐 듯한 텍스트-이미지 변환 아레나 순위표도 공개되었습니다.
GPT-Image-2는 1512점이라는 인상적인 점수로 1위에 데뷔했으며, 2위 기기(온라인 검색 기능을 갖춘 Nano-banana-2)보다 무려 242점이나 앞섰습니다.
대규모 모델의 벤치마킹 맥락에서 사람들은 보통 몇 십분의 일 또는 한 자릿수 차이의 차이에도 큰 의미를 부여하지만, 최고 모델들 간의 점수는 매우 미미합니다.
242점 차 리드는 이 경기장 역사상 전례 없는 기록입니다.
이것은 단순한 버전 업데이트가 아니라, 과감한 세대교체입니다.
나는 하루 대부분을 해당 제품의 다양한 극단적인 기능과 최신 API 인터페이스 문서를 꼼꼼히 검토하는 데 보냈다.
제가 가장 크게 느끼는 감정은 바로 이것입니다.
OpenAI는 여전히 예전의 OpenAI입니다.
잃어버린 입지를 되찾기로 결심했을 때, 그들은 단순히 낡은 카드 테이블을 뒤엎는 것으로 그렇게 했습니다.
이 모델을 접하고 나니, 인공지능으로 완전히 대체되는 데 2~3년은 더 걸릴 것이라고 생각했던 시각 디자인 작업이 사실상 오늘로 마무리되었다고 할 수 있겠습니다.
파트 01 이미지 생성: 모델에서 시각적 에이전트까지
GPT-Image-2가 이처럼 극적인 점수 차이를 달성할 수 있는 이유를 이해하려면 먼저 텍스트 기반 이미지 모델에 대한 기존의 고정관념을 버려야 합니다.
이전에는 인공지능을 이용해 그림을 그리는 것이 마치 눈가리개를 여는 것과 같았습니다. 몇 가지 힌트 단어를 입력하고 인공지능이 픽셀을 원하는 모양으로 배열하기를 기다리는 방식이었죠.
하지만 GPT-Image-2는 시각 엔진이 내장된 지능형 에이전트에 더 가깝습니다.
가장 눈에 띄는 변화는 작동 방식 면에서 완전히 다른 두 가지 모드로 직접 분리된다는 점입니다.
하나는 모든 사용자가 이용할 수 있는 인스턴트 모드입니다.
이 모드는 신속한 대응과 일상생활 및 업무 흐름과의 원활한 통합을 강조합니다.
예를 들어, 휴대폰으로 명령을 보내면 몇 초 안에 완전한 도표를 제공할 수 있습니다.
이 시스템은 매우 강력한 시각적 이해 기능을 갖추고 있지만, 주로 빈번한 단일 거래 시각적 변환 요구 사항을 충족합니다.
사고 모드는 유료 사용자에게 제공됩니다.
실제로 단 하나의 픽셀이라도 렌더링하기 전에, 먼저 10초 이상 걸리는 논리적 추론과 네트워크 검색 과정을 거칩니다.
이 모델은 매우 중요하면서도 극도로 어려운 문제를 해결합니다.
처음으로 모델은 자신이 무엇을 그려야 하는지 정확히 알게 되었다.
가장 직관적인 예를 들어보겠습니다.
대화 상자에 다음을 입력합니다.
포스터를 만들어 주세요. 온라인에서 '덕트 테이프' 모델에 대한 사람들의 의견을 찾아보고 ChatGPT QR 코드도 포함해 주세요.
구형 모델을 사용하면 네티즌들이 무슨 말을 하는지 전혀 인식하지 못하고, 알아볼 수 없는 글자와 가짜 텍스트로 가득한 포스터만 출력하며, QR 코드 또한 스캔할 수 없는 가짜 스티커로 표시됩니다.
하지만 사고 모드에서는 다음과 같은 작업 흐름이 진행됩니다.
먼저 그림 그리기를 일시 중지하고 온라인 검색 도구를 실행하여 레딧, 스레드 또는 링크드인에서 네티즌들이 남긴 실제 댓글을 수집합니다.
그다음에는 포스터의 레이아웃, 여백, 글꼴 계층 구조를 계획하기 시작했습니다.
마지막으로, 직접 스캔하여 전체 이미지를 표시할 수 있는 실제 사용 가능한 QR 코드를 생성합니다.
이것은 더 이상 단순한 그림 그리기가 아닙니다. 연구, 기획, 카피라이팅 자료 추출, 레이아웃 디자인까지 모든 작업을 독립적으로 수행할 수 있는 원스톱 솔루션입니다.
여기서는 병렬적인 비교가 필요합니다.
대규모 모델 커뮤니티를 지켜보는 사람들은 네트워킹 및 검색 기능을 갖춘 원시 이미지 모델이 OpenAI에서 발명된 것이 아니라는 사실을 알고 있습니다.
순위표 2위를 차지하고 있는 나노바나나는 이미 이러한 메커니즘을 갖추고 있습니다.
하지만 실제로 나노바나나를 사용해 보면 여러 면에서 다소 투박하다는 것을 알게 될 것입니다.
나노 바나나에 대한 생각은 흔히 기계적이고 단편적인 논리에 기반합니다.
예를 들어, 포스터 제작을 위해 업계 동향을 검색해달라고 요청하면, 검색은 하겠지만 보통은 위키피디아에서 문장을 어색하게 잘라내어 이미지에 억지로 붙여넣는 경우가 많습니다.
추상적인 비즈니스 요구사항을 해석해야 하는 지침에 직면했을 때, 그것은 쉽게 길을 잃게 됩니다.
그 느낌은 마치 무슨 말을 하는지는 이해하지만 업무 경험은 전혀 없는 인턴 같았습니다. 어떻게 실행해야 하는지는 알지만 전략에 대해서는 완전히 무지한 사람이었죠.
하지만 이와 관련해 GPT-Image-2의 성능은 과장된 것으로밖에 설명할 수 없습니다.
그들의 사고방식은 단순히 형식적인 절차를 밟는 것이 아니라, 근본적인 문화적 맥락과 사업적 의도에 대한 진정한 이해를 바탕으로 합니다.
테스트 도중 저는 아주 간단한 중국어 명령어를 입력했습니다. "일론 머스크가 라이브 스트리밍 중에 더우인 만두를 파는 장면을 스크린샷으로 그려주세요."
기존 그림 방식을 사용하면 아마도 일론 머스크처럼 생긴 백인 남자가 찐빵을 들고 있는 흐릿한 배경의 그림이 그려질 것이고, 틱톡이 어떻게 생겼는지조차 알지 못할 겁니다.
하지만 이러한 사고 과정을 고려해 보면 GPT-Image-2의 결과는 다소 우려스럽습니다.
단순히 요소들을 조합한 것이 아니라, 중국 인터넷에 대한 자체적인 이해를 바탕으로 더우인 라이브 스트리밍 UI의 스크린샷을 픽셀 단위까지 완벽하게 복제해냈습니다.
해당 영상에는 완벽하게 구성된 Doubao AI 비서 광고판을 들고 있는 실감나는 일론 머스크의 모습이 담겨 있을 뿐만 아니라, 더욱 소름 끼치는 것은 안내 메시지에는 나타나지 않은 세부 사항들입니다.
왼쪽 상단에는 "팔로우" 버튼과 시간별 순위가 표시되고, 오른쪽 상단에는 1,023만 6천 명의 온라인 사용자가 표시됩니다. 하단에는 일반적인 제품 카드가 팝업으로 나타나고, 99달러라는 정가에 취소선이 그어져 있으며, 69달러라는 특별 가격, 그리고 카운트다운이 포함된 "지금 구매" 버튼이 있습니다.
가장 소름 끼치는 것은 왼쪽 하단에 네티즌들의 댓글이 놀랍도록 사실적으로 스크롤되는 모습입니다.
IT 초보자: 두바오가 뭔가요? 유용한가요?
별과 바다: 머스크를 응원하세요! 국내에서 개발된 AI를 응원하세요!
댓글에 무엇을 써야 하는지, 제품 UI는 어떻게 보여야 하는지, 가격은 어떻게 설정해야 하는지 아무도 알려주지 않았습니다.
이는 모델이 두 가지 태그(도우인 전자상거래 및 도우바오 대형 모델)를 분석한 후 인간을 대신하여 생성하고 실행한 완벽한 비즈니스 UI 디자인 및 운영 계획입니다.
현재 이미지 생성 분야에서 대규모 모델을 평가하는 기준은 단순히 아름다운 그림을 그릴 수 있는지 여부에서 전략과 레이아웃 논리를 이해하는지 여부로 공식적으로 바뀌었습니다.
파트 2 핵심 역량의 실제 테스트
그 한계를 시험하기 위해 상업용 설계 기준에 따라 여러 가지 고빈도 및 복잡한 시나리오를 사용하여 테스트해 보았습니다.
그 결과는 문제 해결의 세밀함이 놀라울 정도로 뛰어나다는 것을 보여주었다.
첫 번째 시나리오: 시각적 이해 및 비즈니스 폐쇄 루프(모델을 보기 좋게 꾸미기)
기존 전자상거래 이미지 제작이나 패션 기획에서 아이디어 구상부터 제품 착용 효과를 확인하기까지의 실행 비용은 매우 높습니다.
모델을 찾고, 옷을 빌리고, 스튜디오를 설치하고, 후반 작업으로 사진 보정을 해야 합니다.
이후 인공지능의 등장으로 사람들은 LoRA 모델을 훈련시켜 사람 얼굴 형태를 보정하기 시작했지만, 여전히 수십 장의 이미지와 상당한 학습 비용이 필요했습니다.
GPT-Image-2에서는 이 과정이 극도로 압축됩니다.
평범한 셀카 사진을 업로드하고 다음 달에 해변 휴가를 간다고 말하면서 몇 가지 의상을 추천해 달라고 요청해 봤습니다.
처음에 완전히 다른 스타일의 여름 의상 8벌을 보여줬는데, 마치 전문적인 온라인 쇼핑몰 룩북처럼 구성되어 있었고, 각 아이템 옆에는 정확한 텍스트 라벨까지 붙어 있었습니다.
더욱 중요한 것은, 그 순간 내 얼굴 특징과 신체 비율을 정확하게 분석했다는 점입니다.
첫 번째 옷차림이 어떻게 보이는지 보고 싶다고 말하고 여러 각도에서 찍은 자세한 사진 몇 장을 보내자, 앱은 즉시 셀카 속 인물을 식별하고 여름옷을 입힌 다음 측면 사진과 상반신 사진을 포함한 다양한 각도에서 찍은 사진을 보여주었습니다.
이러한 변화는 놀라울 정도로 순조로웠습니다. 이는 기본적인 의상 스타일링 및 렌더링, 또는 모델이 옷을 입어보는 외주 작업과 같은 경쟁 우위 요소가 완전히 사라졌음을 의미합니다.
두 번째 시나리오: 일관성과 연속적인 스토리 전개 해결 (한 문장으로 만화 생성)
인공지능이 생성한 이미지를 다뤄본 사람이라면 누구나 알겠지만, 인공지능으로 아름다운 이미지를 그리는 것은 어렵지 않지만, 같은 사람의 모습을 포즈와 원근감을 일관되게 10개나 그리는 것은 매우 어렵습니다.
이것이 바로 소위 일관성 문제입니다.
하지만 이번 실제 테스트에서는 과거 경험과 완전히 상반되는 사례를 목격했습니다.
어제 친구와 함께 찍은 사진을 업로드하고 간단한 안내에 따라 입력하기만 하면 됩니다.
저희를 주인공으로 삼고, 3페이지 분량의 일본식 만화를 세 편 그려주세요. 줄거리는 당신이 정하시면 됩니다.
몇 초 후, 표준 패널 레이아웃을 갖춘 흑백 만화 3페이지가 바로 출력되었습니다.
가장 소름 끼치는 것은 실존 인물을 바탕으로 만들어진 이 두 만화 캐릭터가 세 페이지에 걸쳐 각기 다른 칸에 등장한다는 점입니다.
클로즈업이든, 달리는 모습을 담은 원거리 샷이든, 뒷모습을 담은 샷이든, 심지어 얼굴 생김새, 헤어스타일 디테일, 옷의 주름까지 모든 것이 완벽하게 일관성이 있다.
더욱 어이없는 것은 만화의 줄거리가 완전히 일관성이 있고, 심지어 대화 상자의 텍스트조차도 완벽한 이야기의 논리를 구성한다는 점이다.
시간과 공간의 일관성을 달성할 수 있다는 것은 그것이 단일 이미지 생성의 영역을 초월하여 연속적인 서사를 연출하는 능력을 갖추고 있음을 나타냅니다.
세 번째 시나리오: 텍스트 렌더링의 마지막 난관 극복(다국어 타이포그래피)
일관성이 스토리텔링 문제를 해결한다면, 다국어 텍스트를 정확하게 표현하는 것은 그래픽 디자이너들을 진정으로 곤경에 빠뜨리는 과제가 될 것입니다.
이전에는 이미지에 글자가 조금이라도 있으면 대형 모델이 알아들을 수 없는 낙서를 하기 시작했습니다.
모델은 텍스트를 토큰(의미 블록)으로 이해하는 반면 생성된 이미지는 픽셀이기 때문에 이 둘은 이전에는 분리되어 있었습니다.
GPT-Image-2는 이 문제를 완벽하게 해결합니다.
저는 이 프로그램을 이용해서 프랑스 패션 잡지 표지, 히라가나와 한자로 가득한 일본 식당 메뉴판을 만들어 봤고, 심지어 글자 밀도가 매우 높은 러시아어 주석까지 만들어 봤습니다.
그 결과, 맞춤법 오류가 전혀 없는 완벽한 원터치 인쇄물이 나왔습니다.
가장 실망스러운 점은 단순히 단어를 정확하게 쓰는 것뿐만 아니라, 해당 언어에 맞춰 지역 문화적 미학과 글꼴 디자인까지 완벽하게 조화시킨다는 것입니다.
예를 들어, 일본어 전단지에 사용된 한자는 매우 정통적인 일본 복고풍 아트 폰트를 사용하고 있으며, 히라가나의 배열 또한 일본인의 세로 읽기 습관에 맞춰져 있습니다.
레이아웃 디자인은 예전에는 그래픽 디자이너들만의 영역이었습니다.
글자 간격 조정, 텍스트 우선순위 지정, 텍스트와 배경 간의 시각적 균형 유지 등은 모두 상당한 연습을 필요로 합니다.
하지만 인공지능이 수많은 언어를 오류 없이 처리하고 뛰어난 타이포그래피 미학까지 갖추게 된다면, 일상적인 포스터, 브로셔, 뉴스 피드 광고에서 더 이상 사람들이 수동으로 정렬 기준선을 그릴 필요가 없어질 것입니다.
네 번째 장면: 왜곡된 이미지 형식과 극도로 세밀한 제어(쌀알 위에 글씨 쓰기).
마지막으로, 그것의 복종심이 얼마나 무시무시한지 확인하기 위해, 나는 그것에게 몇 가지 매우 까다로운 명령을 내렸다.
저는 먼저 극단적인 화면비율을 테스트해봤습니다.
기존 확산 모델은 비표준적인 비율에 매우 취약합니다.
이전에는 이미지를 약간 늘리면 사진에 두 개의 얼굴이 나타났습니다.
하지만 Images 2.0에 3:1 초광각 이미지와 1:3 세로 이미지를 생성하도록 요청했을 때, 오류가 발생하지 않았을 뿐만 아니라, 끝과 끝이 연결되어 논리적으로 닫힌 루프를 형성하는 360도 파노라마 이미지까지 생성했습니다.
2015년에 일회용 카메라로 촬영한 사진 부문이 추가되면서, 오래된 렌즈의 왜곡이나 벽에 반사된 플래시의 어설픈 모습까지도 선명하게 재현되었다.
미세한 제어 능력을 더 잘 보여주는 또 다른 방법은 공식 팀이 출시 행사에서 선보인 다소 황당한 쌀알 실험입니다.
연구진은 아직 베타 테스트 중인 실험적인 4K API를 사용했습니다. 그들은 접사 촬영이나 8K 초고화질과 같은 전문 용어를 사용하지 않고, 매우 추상적이고 평이한 언어로 된 지침을 제공했습니다.
쌀 한 더미. 이 쌀알 하나하나에 'GPT Image 2'라고 적혀 있습니다.
화면에서 이미지를 수십 배 확대하거나 픽셀화 현상이 나타나더라도, 쌀 더미 속에 글자가 새겨진 아주 작은 알갱이 하나를 실제로 찾아낼 수 있습니다.
이 쌀알의 질감은 여전히 물리 법칙을 따르고 있으며, 글자는 쌀알의 미세한 곡선을 따라 표면에 정확하게 새겨져 있습니다.
나머지 모든 작업, 즉 거시적 관점을 불러오고, 심도를 계산하고, 잠재 공간에서 쌀알의 물리적 좌표를 찾고, 그 위에 글자를 인쇄하는 작업은 모두 사고 모드에 들어간 대형 모델에 의해 자동으로 완료되었습니다.
이 사례는 모델이 공간 위치를 이해하는 데 있어 픽셀 수준의 정밀한 판단력을 달성했음을 생생하게 보여줍니다.
이는 향후 작업에서 디자인 초안의 아주 작은 부분까지 정밀하게 수정할 수 있다는 것을 의미합니다. 이전처럼 칼라를 바꾸려고 하면 전체 디자인이 바뀌는 상황이 아니라, 원하는 부분을 정확하게 변경할 수 있습니다.
파트 3 기술적 세부 사항
이처럼 극단적인 통제력과 전략적 정보력은 단순히 컴퓨팅 성능을 무분별하게 축적하는 것만으로는 달성할 수 없습니다.
GPT-Image-2의 비장의 무기가 무엇인지 알아내기 위해 몇 가지 테스트를 진행했습니다.
그 결과, 우리는 매우 흥미로운 점을 발견했습니다.
공식 문서에는 GPT-Image-2의 전체 지식 기반이 2025년 12월까지 업데이트되었다고 명시되어 있지만, 실제 테스트 결과는 그렇지 않았습니다.
인스턴트 모드 학습 데이터 제출 마감일은 2024년 5월 말로 동일합니다.
심도 있는 숙고를 요구하는 사고 모드는 대략 2024년 6월경에 작성된 기본 지식 기반을 가지고 있습니다(정확한 날짜는 실시간 인터넷 연결을 통해 확인할 수 있습니다).
이 두 시점을 기준으로 볼 때, GPT-Image-2의 기본 구조를 추적할 수 있는 것으로 보입니다.
먼저 고주파 이미지 출력을 특징으로 하는 실시간 모드부터 살펴보겠습니다.
2024년 5월이라는 마감일은 o4-mini를 직접 채택하거나 GPT-5 제품군의 경량 버전(GPT-5 mini 또는 극도로 작은 파라미터를 가진 GPT-5 nano)을 채택할 가능성이 매우 높다는 것을 의미합니다.
이러한 경량 기반 시스템이 뛰어난 공간 계획 능력과 복잡한 명령을 이해하는 능력을 갖추고 있기 때문에 상위 수준의 이미지 생성이 안정적으로 유지되고 혼란에 빠지지 않는 것입니다.
그처럼 매우 지능적이고 사업 감각이 뛰어난 사고방식은 GPT-5 마스터 모델에 기반할 수 없습니다.
GPT-5 지식베이스의 마감일이 2024년 9월이기 때문입니다.
사고 방식은 백그라운드에서 지속적으로 반복되는 O 시리즈 추론 모델(예: o4 또는 업데이트된 o3)과 연결될 가능성이 매우 높습니다.
대형 모델은 먼저 O 시리즈 고유의 장시간 숙고 메커니즘을 사용하여 잠재 공간에서 비즈니스 로직, 사용자 심리 및 레이아웃 좌표를 명확하게 계산한 다음, 최종 픽셀 렌더링을 위해 시각 모듈에 전달합니다.
물론, 다른 가능한 경로도 있습니다.
OpenAI의 매우 정교한 컴퓨팅 성능 할당 메커니즘은 GPT-5 nano를 백업으로 직접 활용하는 빠른 모드와 외부 도구와 함께 약간 더 큰 GPT-5 mini를 활용하는 사고 모드를 지원합니다.
하지만 기본 플랫폼 조합과 관계없이, OpenAI의 API 생태계를 살펴보셨다면, OpenAI의 기본 생성 로직이 Midjourney의 로직과 완전히 다르다는 것을 알게 되실 겁니다.
파트 04 가격 책정, 모두에게 가장 중요한 요소
하지만 개발자와 기업들이 실제로 워크플로에 통합하고자 할 때, 기본 가격을 추측하기보다는 매우 현실적이고 직관적이지 않은 API 가격표에 더 주목해야 합니다.
이전에는 DALL-E 3가 이미지당 요금을 부과했습니다(예: 이미지당 0.04달러).
하지만 오픈아이언은 1세대 GPT-Image-1부터 토큰 기반 결제 체계로 완전히 전환했습니다.
이번에 GPT-Image-2는 이러한 기준을 유지하면서도 더 많은 기능을 더 저렴한 가격에 제공합니다.
방금 공개된 공식 가격표에 따르면 백만 토큰당 가격은 다음과 같습니다.
GPT-Image-2 이미지 섹션: 입력 $8.00, 캐시된 입력 $2.00, 출력 $30.00.
이전 세대 gpt-image-1.5와 비교했을 때 출력 가격은 $32.00입니다.
새 모델이 실제로 더 저렴합니다.
계산해 봅시다.
과거에는 고품질 이미지를 생성하기 위해 약 1,000~1,500개의 출력 토큰이 필요했습니다.
백만 개의 출력 토큰당 30달러의 가격을 기준으로 할 때, 이미지 하나를 생성하는 데 드는 실제 비용은 약 0.03달러에서 0.045달러(위안화로 약 2~3센트) 사이입니다.
즉각적인 응답이 필요하지 않고 공식 배치 API 모드를 사용하는 경우 가격이 절반으로 줄어듭니다(출력 가격은 15달러로 하락).
이미지 하나를 생성하는 데 드는 총비용은 단 10센트에 불과합니다.
티켓 가격은 이미 상당히 경쟁력 있지만, 진정한 강점은 가격표에 저장된 입력값에 있습니다.
과거에는 만화 연재나 포스터 디자인과 같은 작업을 할 때마다 콘텐츠를 새로 생성하기 위해 수많은 캐릭터 참고 이미지, 이전 사건 요약, 긴 설명 자료 등을 다시 업로드해야 했기 때문에 비용이 매우 많이 들었습니다.
하지만 현재의 토큰 기반 결제 모델에서는 한 번에 8개의 만화를 연속으로 생성하도록 설정하면 첫 번째 이미지의 시각적 요소가 컨텍스트로 직접 캐시됩니다.
두 번째 이미지부터 이미지 입력 비용이 8달러에서 2달러로 급락했습니다(즉, 비용의 25%만 청구되었습니다).
이는 대규모 상업용 배치 생산이나 극도로 높은 역할 일관성이 요구되는 연속 생산을 수행할 때 한계 비용이 급격히 감소한다는 것을 의미합니다.
모델이 정교할수록, 그리고 도면이 많을수록 도면 한 장당 비용이 낮아집니다.
이러한 산업화된 청구 방식이야말로 조립 라인 방식의 예술가들을 절망으로 몰아넣는 진정한 원인입니다.
파트 5 제작진 공개
마지막으로, 생중계된 컨퍼런스에서 공개된 OpenAI 내부 비전 드림팀을 다시 살펴보겠습니다. 이전에는 터무니없어 보였던 많은 기능들이 이제는 완벽하게 이해됩니다.
예를 들어, 복잡한 다국어 조판 및 알아보기 힘든 문자 문제들을 정확히 어떻게 해결하는 것일까요?
이는 팀의 선임 과학자인 가브리엘 고와 뗄래야 뗄 수 없는 관계입니다.
학계에서 그는 획기적인 멀티모달 모델인 CLIP의 핵심 저자로 가장 잘 알려져 있습니다.
CLIP은 현대 인공지능이 인간 언어와 이미지 픽셀 간의 대응 관계를 이해하는 토대를 마련했습니다.
이 학자가 크로스모달 의미 매핑 팀을 이끌면서 GPT-Image-2는 더 이상 텍스트의 모양을 추측하는 데 그치지 않고 픽셀 수준에서 텍스트를 실제로 작성할 수 있게 되었습니다.
예를 들어, 이 시스템은 어떻게 3차원 공간 관계를 이해하고, 극단적인 화면비로 360도 파노라마 이미지를 생성하며, 쌀알 하나하나에 비치는 빛과 그림자를 파악할 수 있을까요?
이는 또 다른 핵심 멤버인 알렉스 유 덕분입니다.
오픈AI에 합류하기 전에는 3D 생성 분야의 유망 스타트업인 루마 AI의 공동 창립자 겸 전 CTO였으며, 3D 신경 렌더링(NeRF 등) 분야에 전념한 저명한 학자였습니다.
그가 합류하면서 GPT-Image-2는 기존의 2D 픽셀 번짐 현상을 실제로 뛰어넘었습니다.
아마도 프로그램은 먼저 머릿속으로 3D 장면을 만들고 조명을 설정한 다음 정확한 2D 단면을 렌더링하여 보여줄 가능성이 매우 높습니다.
만화의 여러 페이지에 걸쳐 어떻게 그토록 놀라운 일관성을 유지할 수 있었을까요?
이는 MIT CSAIL을 갓 졸업한 팀의 젊은 두 사람을 가리킵니다.
보위안 첸(왼쪽)과 키완 송(오른쪽).
그들의 학문적 핵심 연구 분야는 세계 모델과 체현된 지능이라고 불립니다.
기계가 물리적 세계의 작동 방식을 이해하도록 가르치고, 캐릭터가 다양한 시간과 공간의 장면에서 완전히 일관된 특징을 유지하고 변형되지 않도록 하는 것이 바로 이 두 학자가 해결하고자 노력해 온 문제입니다.
마지막으로, 대규모 추론 모델과 컴퓨터 비전의 기본 논리 사이의 간극을 메우는 데 헌신해 온 니탄트 쿠디게(왼쪽, O 시리즈 추론 모델의 주요 저자)와 켄지 하타(오른쪽, 전 구글 연구원이자 스탠포드 비전 연구소 졸업생)가 있습니다.
이러한 사람들이 한데 모이면, 기본적인 논리적 추론, 3D 공간 렌더링, 텍스트와 이미지의 완벽한 정렬, 그리고 물리 법칙이 자연스럽게 하나의 모델로 통합됩니다.
파트 06 GPT-Image-2의 경계
모든 모델에는 한계가 있다.
관계자는 또한 특정 극단적인 상황에 직면했을 때 여전히 어려움을 겪고 있다고 인정했습니다.
예를 들어, 정확한 물리적 공간 뒤집기가 필요한 종이접기 안내서, 루빅 큐브 풀기, 또는 매우 촘촘한 모래알갱이처럼 반복적인 세부 사항이 요구되는 작업은 여전히 해당 기기의 성능을 한계까지 끌어올릴 것입니다.
하지만 상업적 용도라는 맥락에서 볼 때, 이는 극히 사소한 결함입니다.
디자인 업계 전체적으로 불안감을 팔 필요는 없지만, 그렇다고 미학이 사라진다는 의미는 아닙니다.
뛰어난 안목과 사업 감각, 전략적 사고를 가진 사람들은 여전히 이를 활용하여 훌륭한 제품을 만들어낼 수 있습니다.
하지만 객관적인 사실은 디자이너라는 직업을 보호해 주던 장벽이 상당히 무너졌다는 것입니다.
과거에는 디자인 소프트웨어의 키보드 단축키를 암기하고, 글꼴을 가로 및 세로로 정렬하는 방법, 언어에 따라 서식을 지정하는 방법, 그리고 세밀한 이미지 편집 및 잘라내기 방법을 숙지하여 생계를 유지했습니다.
하지만 앞으로는 어려워질 것입니다. 과거 에는 돈을 받고 공개적으로 거래되던 이러한 기술들이 이제는 누구나 단 한 문장으로 무료로 호출할 수 있는 기본 명령어가 되었기 때문입니다.
한동안 침묵을 지키던 오픈아이언은 매우 차분하지만 강력한 방식으로 누가 진정으로 이 테이블의 패를 쥐고 있는지 다시 한번 보여주었습니다.
기존의 실행 도구 체계가 무너지고 있으며, 업계에 남은 질문은 더 이상 AI가 우리를 대체할 것인가가 아니라, 이 완전히 새로운 생산 라인에 어떻게 적응해야 하는가입니다.

