PANews 4月30日消息,根據DeepSeek發布的技術報告,其提出「視覺基元推理」(Visual Primitives)方法,透過將點、框等基礎視覺單元嵌入推理鏈,解決多模態任務中的Reference Gap問題。此方法基於DeepSeek-V4-Flash架構,並透過壓縮KV快取實現低映像token消耗。在計數與空間推理基準測試中,其表現可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash(僅限部分維度)。團隊表示未來將開源部分基準與數據,模型權重將整合後發布。
DeepSeek發布視覺基元推理方法,提升多模態複雜推理能力
分享至:
作者:PA一线
本內容只為提供市場資訊,不構成投資建議。
關注PANews官方賬號,一起穿越牛熊

