DeepSeek新模型MODEL1代码曝光,疑为全新架构

PANews 1月21日消息,据量子位报道,DeepSeek在GitHub更新的FlashMLA代码中首次出现“MODEL1”名称,覆盖114个文件中28处提及,且与现有版本V32(DeepSeek-V3.2)并列,暗示MODEL1为下一代新架构模型。代码差异显示该模型在KV缓存布局、稀疏性处理及FP8解码等方面进行了优化,或将在春节前后正式发布。结合近期公开的mHC残差连接机制与Engram记忆模块,MODEL1有望整合多项自研创新。

分享至:

作者:PA一线

本内容只为提供市场信息,不构成投资建议。

关注PANews官方账号,一起穿越牛熊
推荐阅读
2小时前
2026-01-15 13:13
2026-01-09 13:18
2026-01-01 09:37
2025-12-23 13:00
2025-12-22 09:24

热门文章

行业要闻
市场热点
精选读物

精选专题

App内阅读