샤오홍슈의 이미지 및 텍스트 레이아웃 AI 기술은 AI 주석을 거치지 않고 이미지와 텍스트를 생성하는 방법을 찾아냈습니다.

2026년 2월, 샤오홍슈는 모든 AI 생성 콘텐츠에 적극적인 라벨링을 의무화하고, 라벨이 없는 콘텐츠는 배포 제한을 받을 수 있다고 발표했습니다. 3개월 후, 샤오홍슈와 위챗 공식 계정 커버에 사용할 3:4 비율의 이미지와 텍스트를 생성하도록 특별히 설계된 오픈소스 프로젝트인 guizang-social-card-skill 이 깃허브에 등장했습니다. 이 프로젝트의 기술적 접근 방식은 특이했습니다. 이미지 픽셀 생성에 AI 모델을 사용하지 않고, 전체 이미지를 HTML과 CSS로 렌더링했으며, 이미지는 언스플래시와 같은 실제 이미지 라이브러리에서 가져왔습니다. 따라서 결과물은 "AI 생성 이미지"가 아니라 브라우저 엔진이 생성한 웹페이지의 래스터화된 스크린샷이었습니다.

이러한 선택은 특정한 변화를 반영합니다. 샤오홍슈는 2026년부터 이미지의 픽셀 분포 패턴과 오디오 특징을 분석하여 AI 기반 콘텐츠를 식별하는 시청각 인식 모델을 출시했습니다. 같은 기간 동안 80만 개 이상의 AI 관리 계정과 약 15만 개의 AI 생성 가짜 게시물을 처리했습니다. 이미지와 텍스트를 자주 제작해야 하는 콘텐츠 제작자의 경우, 미드저니나 캔바의 AI가 생성한 이미지가 감지되어 가짜 게시물로 분류될 확률이 지속적으로 높아지고 있습니다. 반면 장시푸의 스킬은 다른 방식을 택했습니다. 레이아웃 결정은 AI에 맡기고 최종 픽셀 값은 렌더링 엔진과 실제 이미지 라이브러리에 전달하는 것입니다.

이는 의도적인 기술적 우회입니다. 하지만 이러한 접근 방식이 얼마나 효과적일지는 플랫폼이 "AI 생성 합성 콘텐츠"라는 용어를 얼마나 유연하게 정의하느냐에 달려 있습니다.

AI는 28개의 레이아웃 골격에 대한 레이아웃 로직을 담당하며, 도면 작성 자체는 담당하지 않습니다.

본명이 구이창인 마스터 장은 이전에 텍스트와 이미지 레이아웃을 위한 AI 도구인 guizang-ppt-skill 출시한 바 있습니다. 이번에 출시된 '소셜-카드-스킬'은 샤오홍슈의 3:4 비율 텍스트 및 이미지 레이아웃과 위챗 공식 계정의 1:1 및 21:9 비율 커버 이미지 레이아웃에 더욱 특화되어 있으며, 출력 해상도는 각각 1080×1440, 1080×1080, 2100×900입니다.

기술적 아키텍처 측면에서 이 기능은 두 가지 시각 시스템(편집형(잡지 스타일, 16개 레이아웃)과 스위스형(스위스 국제 스타일, 12개 레이아웃))으로 나뉜 28개의 내장 레이아웃 골격과 10가지 사전 설정 테마 색상을 제공합니다. 사용자가 목적지, 여정 또는 메모 테마를 입력하면 AI가 적절한 레이아웃 골격을 선택하고, 텍스트 위치를 결정하고, 지도 주석 매개변수를 처리한 다음, 모든 디자인 요소를 HTML+CSS로 작성합니다. Playwright 렌더링 엔진이 이후 단계를 처리하여 페이지별로 PNG 파일을 출력합니다.

여행 블로거에게 특히 유용한 구성 요소 중 하나는 지도 모듈입니다. 이 모듈은 MapLibre를 사용하여 OpenStreetMap에서 실제 타일을 불러오고, 여러 위치 마커와 연결을 지원합니다. 사용자는 도시 또는 명소 이름만 입력하면 AI가 자동으로 레이블이 지정된 기본 지도를 생성하여 레이아웃에 삽입합니다. 함께 제공되는 이미지 소스 워크플로는 명확한 우선순위를 가지고 있습니다. 사용자가 제공한 실제 사진이 가장 높은 우선순위를 가지며, 사용자가 제공한 이미지가 없는 경우 Unsplash → Pexels → Flickr CC → Wallhaven 순서로 이미지가 자동으로 검색됩니다.

전체 프로세스는 입력 → 스타일 및 테마 → 레이아웃 선택 → 에셋 준비 → 구성 및 렌더링 → 전달 및 검토 → 반복의 7단계로 진행됩니다. 각 단계는 작업 디렉터리의 .poster 파일에 기록됩니다. 이미지를 일괄 생성할 때는 node render.mjs 스크립트가 실행되어 Playwright가 이미지를 하나씩 렌더링합니다. 별도의 유효성 검사 스크립트인 validate-social-deck.mjs 실제 브라우저 환경에서 DOM 요소를 측정하여 텍스트 넘침, 글꼴 크기 제한 초과, 바닥글 요소 충돌과 같은 레이아웃 문제를 감지합니다.

이 메커니즘의 설계 목표는 명확합니다. 확산 모델처럼 자유롭지만 예측 불가능한 것이 아니라, 인쇄 조판 소프트웨어처럼 정밀하고 제어 가능한 방식을 채택하는 것입니다. 하지만 그 대가로 창작의 자유는 28개의 그리드로 제한됩니다. 개인적인 사진 스타일, 손으로 그린 요소, 또는 불규칙한 콜라주를 활용하는 창작자들에게 이러한 레이아웃 틀은 효율성 향상이 아닌 오히려 디자인 제약을 제공합니다.

진입 장벽과 관련하여, CLI 버전은 Playwright 및 Node.js 환경 설치와 Claude Code 또는 Codex API 접근 권한이 필요합니다. 개발자가 아닌 사용자를 위해 xiaohongshu.guizang.ai 에서 접속 가능한 웹 기반 버전도 있지만, 해당 버전의 기능이 CLI 버전과 동일한지는 공개적으로 알려져 있지 않습니다. X 플랫폼에 대한 개발자들의 여러 트윗과 자주 업데이트되는 README를 보면 이 프로젝트가 여전히 빠르게 개발되고 있음을 알 수 있습니다.

픽셀은 생성 모델에서 나오는 것이 아니지만, 규정 준수가 장기적인 보안을 보장하는 것은 아닙니다.

공개된 정보와 기술 데이터를 기반으로, 샤오홍슈의 AI 콘텐츠 탐지 로직은 주로 시청각 인식 모델에 의존합니다. 이 모델은 이미지의 픽셀 분포 패턴을 분석하여 콘텐츠가 AI 생성 모델에서 비롯된 것인지 판단합니다. 확산 모델과 GAN은 이미지를 생성할 때 픽셀 수준에서 특정 통계적 특징을 남깁니다. 이러한 특징은 자연광, 렌즈 왜곡, 카메라 센서가 포착하는 노이즈 패턴과 다릅니다. 시청각 인식 모델의 학습 목표는 바로 이러한 통계적 불일치를 포착하는 것입니다.

마스터 장의 스킬 회피 논리는 핵심적인 차이점에 기반합니다. 바로 출력 이미지의 픽셀이 생성 모델에서 나온 것이 아니라는 점입니다. HTML 렌더링 엔진은 CSS 스타일을 래스터화하여 브라우저 스크린샷이나 데스크톱 출판 소프트웨어 출력과 더 유사한 픽셀 분포 특성을 만들어냅니다. 사진은 Unsplash와 같은 이미지 라이브러리의 실제 이미지를 사용하며, 이러한 이미지는 카메라로 촬영하고 수동으로 후처리한 것이므로 생성 모델의 흔적이 전혀 남아 있지 않습니다.

하지만 이러한 구분은 플랫폼에서 정의하는 "AI 생성 합성 콘텐츠"가 "AI 모델 생성 픽셀"의 범위에 정확히 포함되는 경우에만 성립합니다. 샤오홍슈의 공식 발표에서는 "AI 생성 합성 콘텐츠"라는 표현을 사용했는데, 이는 구체적인 범위를 명시하지 않았습니다. 만약 플랫폼이 정의를 "AI 지원 디자인 프로그램 렌더링 출력물"로 확장하거나, HTML 래스터 이미지의 브라우저 렌더링 특성을 인식 모델 학습 데이터셋에 포함시킨다면, 현재 이 접근 방식의 기술적 우위는 사라질 것입니다.

이 플랫폼은 기술적 기반과 거버넌스 측면에서 확장 가능성을 충분히 갖추고 있습니다. 시청각 인식 모델 자체도 지속적으로 개선되고 있습니다. HTML로 렌더링된 이미지와 AI로 생성된 이미지의 비교 샘플을 대량으로 학습 데이터에 포함시키면, 모델은 "브라우저 폰트 렌더링의 서브픽셀 앤티앨리어싱 특징"과 "GAN 텍스트 생성 시 나타나는 불규칙한 픽셀 블록"을 구분하는 법을 학습할 수 있습니다. 현재 샤오홍슈가 이러한 방향으로 학습을 시작했다는 공개 정보는 없지만, 모델의 능력 한계를 고려할 때 이러한 확장은 기술적으로 충분히 가능합니다.

더욱 시급한 문제는 미니 프로그램 호스팅과 관련된 규정 준수 요건입니다. 현재 이 스킬이 모델 등록 번호를 통합했거나 관련 규정 준수 등록을 완료했다는 공식 문서는 없습니다. 플랫폼이 콘텐츠 검토 과정에서 이미지 생성 툴체인에 대한 추적성 요건을 추가할 경우, 등록 정보 부족이 새로운 문제점으로 작용할 수 있습니다.

API 템플릿 엔진, 플랫폼 맞춤 설정 도구 및 HTML 렌더링은 서로 다른 세 가지 경로로 갈라지고 있습니다.

소셜 미디어용 이미지 생성에 사용 가능한 시중 도구들을 살펴보면 세 가지 서로 다른 기술적 방향으로 나아가고 있음을 알 수 있습니다. 각 방향은 콘텐츠 검열 위험 측면에서 서로 다른 구조를 가지고 있습니다.

AI 모델은 이미지를 직접 생성합니다 . 이러한 접근 방식은 2026년 4월에 출시된 Canva AI의 Magic Design 기능이 대표적입니다. 이 기능은 텍스트 입력만으로 AI 시각 요소가 포함된 디자인 초안을 직접 생성합니다. Midjourney와 DALL·E 같은 모델이 생성한 이미지도 이 범주에 속합니다. 문제는 명확합니다. 이러한 이미지가 시청각 인식 모델의 주요 탐지 대상이라는 것입니다. Canva는 탐지를 회피하는 대신 투명한 라벨링을 장려하는 방식을 취하고 있습니다. 샤오홍슈(Xiaohongshu)의 경우, AI 모델이 생성한 이미지가 포함된 게시물에 라벨을 붙이는 것이 추천 가중치를 낮추는지에 대한 데이터는 공개되어 있지 않지만, "라벨이 없는 AI 콘텐츠는 배포가 제한된다"는 플랫폼의 정책은 확립되어 있습니다. 확산 모델이 업데이트될 때마다 픽셀 통계적 특징이 변경될 수 있으며, 이에 따라 탐지 모델도 수정되므로 콘텐츠 제작자는 끊임없이 변화하는 대상을 마주하게 됩니다.

API 템플릿 엔진 렌더링 . 배너베어(Bannerbear)가 이 접근 방식의 대표적인 예입니다. 사용자는 디자이너에서 템플릿을 만들고, REST API를 통해 JSON 데이터를 전달하여 레이어 변수를 수정합니다. 그러면 서버는 이를 렌더링하여 PNG 또는 JPG 파일로 출력합니다. 배너베어의 핵심 또한 "모델 생성 픽셀"이 아닌 "절차적 렌더링"이며, 출력물에는 모델 확산의 흔적이 전혀 남지 않습니다. 배너베어와 장시푸 스킬(Zangshifu Skill)의 차이점은 배너베어의 템플릿은 수동 디자인에 의존하고 AI는 레이아웃 결정에 관여하지 않는 반면, 장시푸 스킬은 클로드(Claude)가 HTML을 직접 읽고 쓸 수 있도록 하며 레이아웃 선택은 AI에 맡긴다는 점입니다. 배너베어 솔루션의 위험성은 또 다른 측면에 있습니다. 수많은 계정이 동일한 템플릿, 동일한 색 구성표, 동일한 글꼴을 사용하여 이미지와 텍스트를 생성할 경우, 각 이미지가 AI로 생성된 것이 아니더라도 플랫폼 측에서 "절차적 대량 생산" 패턴 인식을 작동시킬 수 있습니다. 스팸 방지 규칙의 작동 조건이 AI 감지와 완전히 동일하지는 않지만, 여러 계정을 일괄적으로 운영하는 크리에이터에게는 콘텐츠 배포 제한이라는 결과를 초래할 수 있습니다.

플랫폼 맞춤형 이미지 생성 . 핀 생성기는 핀터레스트 전용으로 설계되어 플랫폼 알고리즘 선호도에 맞춰 핀 이미지를 자동으로 생성합니다. 이 접근 방식의 핵심은 우회가 아니라 완벽한 적응입니다. 크기, 시각적 스타일, 게시 일정 모두 플랫폼 가이드라인에 부합합니다. 장점은 승인 위험이 가장 낮다는 것이지만, 단점 또한 분명합니다. 도구의 기능이 플랫폼 규칙에 종속되어 있어 핀터레스트가 알고리즘을 변경하거나 타사 API 호출을 제한하면 이 도구는 완전히 무용지물이 됩니다. 이를 장시푸 스킬과 비교해 보면, 전자는 플랫폼 전용 도구인 반면 후자는 크로스 플랫폼 솔루션입니다. 플랫폼 전용 도구는 더 안전하지만 취약성이 높고, 크로스 플랫폼 도구는 더 유연하지만 더 복잡합니다. 이는 AI 도구 분야에서 흔히 발생하는 장단점입니다.

세 가지 접근 방식의 위험 구조는 서로 다릅니다. AI 생성 이미지는 가장 자유로운 방식을 제공하지만, 업데이트할 때마다 새로운 탐지 모델에 맞춰 조정해야 합니다. 템플릿 엔진은 가장 안정적이지만 스팸 방지 규칙에 의해 오탐으로 처리될 수 있습니다. HTML 렌더링은 그 중간쯤에 위치합니다. 레이아웃은 AI가 유연하게 제어하는 반면, 픽셀은 브라우저와 실제 영상에서 처리됩니다. 이 방식은 "AI 생성 픽셀" 수준에서의 탐지를 피할 수 있지만, 플랫폼의 의미론적 수준 규칙 확장에 대응할 수는 없습니다.

레이아웃 시스템의 상한선은 코드가 아니라 콘텐츠 유형에 있습니다.

28개의 레이아웃 기본 틀은 잡지 스타일과 스위스 스타일이라는 두 가지 주요 시각 시스템을 포괄합니다. 이 시스템은 지도, 경로, 시간표, 여러 날짜에 걸친 여행 일정 등을 표시해야 하는 여행 블로거에게 매우 적합합니다. 지도 주석과 여행 일정 연결은 이러한 노트의 핵심 정보이며, 레이아웃 기본 틀은 전문적인 느낌을 유지하면서 정보를 체계적으로 구성해 줍니다.

하지만 샤오홍슈의 콘텐츠 생태계는 여행 가이드 그 이상입니다. 패션 팁은 개인적인 사진 스타일과 색감에 의존하고, 뷰티 리뷰는 고해상도 접사 사진과 제품 비교 이미지를 필요로 하며, 라이프스타일 콘텐츠는 여러 장의 이미지를 조합한 콜라주와 손글씨 주석을 적극적으로 활용합니다. 이러한 콘텐츠 유형의 "레이아웃"은 구조화된 정보 전달 방식이 아니라 개인적인 미적 감각과 감정을 표현하는 방식입니다. 이러한 맥락에서 28가지 레이아웃 템플릿은 도구가 아니라 제약 조건입니다.

기술적 한계 또한 분명히 존재합니다. 현재 1080×1440(샤오홍슈 3:4), 2100×900(위챗 공식 계정 21:9), 1080×1080(위챗 공식 계정 1:1)의 세 가지 해상도만 지원합니다. 더우인용 9:16 세로형 커버 이미지나 빌리빌리용 16:9 가로형 커버 이미지는 지원하지 않습니다. 이미지 라이브러리는 언스플래시와 펙셀을 기반으로 하며, 이 라이브러리의 이미지는 여행, 풍경, 도시 건축물 등 고품질 사진 위주로 구성되어 있습니다. 하지만 음식 클로즈업, 화장품 사진, 의류 등 세로형 콘텐츠에 자주 사용되는 이미지는 이러한 이미지 라이브러리에서 제한적으로 제공됩니다. 크리에이터들이 충분한 실제 촬영 영상을 보유하고 있다면, 사용자 중심적인 접근 방식을 통해 이러한 문제를 어느 정도 해결할 수 있을 것입니다.

유효성 검사 메커니즘은 양날의 검과 같습니다. `validate-social-deck.mjs` 스크립트는 이미지를 렌더링하기 전에 레이아웃 문제를 감지하여 100회까지 오류 없는 일괄 렌더링을 보장합니다. 이는 매일 수십 개의 이미지가 필요한 운영 환경에서 효율성을 높여줍니다. 하지만 이는 사전 설정된 레이아웃 규칙을 준수하지 않는 디자인은 스크립트에 의해 거부된다는 것을 의미하기도 합니다. 표준 레이아웃에 기울어진 텍스트 장식이나 사용자 지정 여백을 추가하려는 제작자는 Canva에서처럼 간단히 드래그하여 조정할 수 없고, HTML 및 CSS 소스 코드를 직접 편집해야 합니다.

로컬 배포 장벽 또한 또 다른 계층화 요소입니다. Playwright와 Node 스크립트를 실행할 수 있는 크리에이터는 레이아웃 골격과 렌더링 스크립트를 깊이 파고들어 맞춤 설정할 수 있습니다. 그러나 대부분의 샤오홍슈 블로거는 웹 인터페이스 기능의 일부만 사용할 수 있습니다. 이 두 유형의 사용자가 해당 기술을 통해 얻는 실제 가치는 크게 다릅니다. 오픈 소스 프로젝트의 핵심 사용자 그룹은 단순히 "원클릭 이미지 생성"을 원하는 일반 콘텐츠 제작자가 아니라, 실험 정신이 강하고 기술적 배경을 가진 크리에이터와 개발자로 구성됩니다.

정답은 하나가 아니지만, 기술적 접근 방식의 차이는 많은 것을 시사합니다.

샤오홍슈의 여행 블로거는 세 가지 선택에 직면합니다. 첫째, Midjourney를 사용하여 그림이 포함된 여행 일정 지도를 생성하면 스팸으로 분류되어 제재를 받을 위험이 있습니다. 둘째, Bannerbear를 사용하여 템플릿을 설정하고 데이터를 일괄적으로 매일 업로드하면 템플릿이 유사해져 스팸 방지 조치를 받을 위험이 있습니다. 셋째, Zangshifu의 Skill을 사용하여 AI가 레이아웃을 선택하고 HTML을 사용하여 이미지를 렌더링하면 플랫폼에서 "합성 콘텐츠"의 정의를 확대 적용할 위험이 있습니다. 안전한 선택지는 없으며, 각기 다른 위험 구조를 조합하는 방법만 있을 뿐입니다.

이러한 상황 자체가 시사하는 바가 큽니다. 플랫폼과 AI 도구 간의 반복적인 경쟁이 이미 시작되었다는 것입니다. 플랫폼이 탐지 모델을 업데이트할 때마다 특정 도구들의 기술적 우위는 사라지고, 새로운 도구가 우회책을 찾아낼 때마다 플랫폼은 전략을 조정합니다. 이러한 과정은 안정적인 상태로 수렴하지 않을 것입니다. HTML 렌더링 솔루션의 수명은 샤오홍슈의 시청각 인식 모델이 "확산 모델 픽셀 특징"에 계속 집중할지, 아니면 "모든 비네이티브 사진 픽셀"로 확장할지에 달려 있습니다.

콘텐츠 제작자에게 있어 "AI 지원" 콘텐츠와 "AI 대체" 콘텐츠를 구분하는 것은 실질적으로 매우 중요합니다. 플랫폼들은 AI를 창의성 증폭 도구로 활용하는 것은 장려하지만, 저품질의 대량 생산에서 인간을 대체하는 데 사용하는 것은 반대한다는 입장을 분명히 했습니다. Zang Shifu Skill의 경우, AI는 콘텐츠 생성이 아닌 레이아웃 결정을 내립니다. 사진은 실제 촬영된 것이고, 레이아웃은 인간 디자이너가 미리 설계한 틀을 따릅니다. 이는 정확히 "AI 지원" 범주에 속합니다. 생성 모델에 의해 완전히 생성된 텍스트-이미지 변환 콘텐츠는 플랫폼들이 명시적으로 목표로 삼는 콘텐츠입니다.

이러한 구분이 플랫폼 검토의 운영 표준으로 자리 잡을지는 아직 불확실합니다. 하지만 도구 개발자들은 이미 이러한 정의에 맞춰 기술적 선택을 하고 있습니다.