PANewsは4月30日、DeepSeekが「Visual Primitives」という手法を提案したと報じた。この手法は、点やボックスといった基本的な視覚単位を推論チェーンに組み込むことで、マルチモーダルタスクにおける参照ギャップ問題に対処するものだ。DeepSeek-V4-Flashアーキテクチャをベースとし、圧縮キーバリューキャッシュによって画像トークンの消費量を削減している。計数および空間推論ベンチマークでは、GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash(特定の次元に限定)と同等の性能を発揮する。チームは今後、ベンチマークとデータの一部をオープンソース化し、モデルの重みは統合後に公開する予定だと述べている。
DeepSeekは、マルチモーダルな複雑推論能力を強化するための視覚的プリミティブ推論手法を発表しました。
共有先:
著者:PA一线
この内容は市場情報の提供のみを目的としており、投資助言を構成しません。
PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう
おすすめ記事
PANewsアプリ
24時間ブロックチェーン業界情報を追跡し、深掘り記事を解析。

