DeepSeek은 다중 모달 복합 추론 기능을 향상시키는 시각적 기본 추론 방법을 출시했습니다.

PANews는 4월 30일 DeepSeek이 멀티모달 작업에서 참조 격차 문제를 해결하기 위해 점과 상자 같은 기본 시각 단위를 추론 과정에 통합하는 "Visual Primitives" 방식을 제안했다고 보도했습니다. 이 방식은 DeepSeek-V4-Flash 아키텍처를 기반으로 하며, 압축된 키-값 캐싱을 통해 이미지 토큰 사용량을 최소화합니다. 카운팅 및 공간 추론 벤치마크에서 GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash(특정 차원에 한정)와 유사한 성능을 보였습니다. DeepSeek 팀은 향후 일부 벤치마크와 데이터를 오픈소스로 공개하고, 모델 가중치는 통합 후 공개할 예정이라고 밝혔습니다.

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
PANews APP
Coinbase 上线 MEGA 永续合约与现货交易
PANews 속보