PANews는 4월 30일 DeepSeek이 멀티모달 작업에서 참조 격차 문제를 해결하기 위해 점과 상자 같은 기본 시각 단위를 추론 과정에 통합하는 "Visual Primitives" 방식을 제안했다고 보도했습니다. 이 방식은 DeepSeek-V4-Flash 아키텍처를 기반으로 하며, 압축된 키-값 캐싱을 통해 이미지 토큰 사용량을 최소화합니다. 카운팅 및 공간 추론 벤치마크에서 GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash(특정 차원에 한정)와 유사한 성능을 보였습니다. DeepSeek 팀은 향후 일부 벤치마크와 데이터를 오픈소스로 공개하고, 모델 가중치는 통합 후 공개할 예정이라고 밝혔습니다.
DeepSeek은 다중 모달 복합 추론 기능을 향상시키는 시각적 기본 추론 방법을 출시했습니다.
공유하기:
작성자: PA一线
이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.
PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
PANews 앱
24시간 블록체인 업계 소식을 추적하고 심층 기사를 분석합니다.

