DeepSeekは、マルチモーダルな複雑推論能力を強化するための視覚的プリミティブ推論手法を発表しました。

PANewsは4月30日、DeepSeekが「Visual Primitives」という手法を提案したと報じた。この手法は、点やボックスといった基本的な視覚単位を推論チェーンに組み込むことで、マルチモーダルタスクにおける参照ギャップ問題に対処するものだ。DeepSeek-V4-Flashアーキテクチャをベースとし、圧縮キーバリューキャッシュによって画像トークンの消費量を削減している。計数および空間推論ベンチマークでは、GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash(特定の次元に限定)と同等の性能を発揮する。チームは今後、ベンチマークとデータの一部をオープンソース化し、モデルの重みは統合後に公開する予定だと述べている。

共有先:

著者:PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう
PANews APP
美国第一季度实际GDP年化季率初值 2%,预期2.3%
PANews 速報