DeepSeek推出NSA机制提升长上下文训练与推理效率 | PANews

DeepSeek推出NSA机制提升长上下文训练与推理效率

PANews 2月18日消息，DeepSeek宣布推出NSA（稀疏注意力机制），该机制与硬件高度一致且支持本机训练，旨在实现超快速的长上下文训练和推理。通过针对现代硬件的优化设计，NSA在加速推理速度的同时显著降低预训练成本，且不会影响模型性能。

据官方介绍，NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异，与完全注意力模型相比表现相当甚至更佳。

分享至：

作者：PA一线

本内容只为提供市场信息，不构成投资建议。

关注PANews官方账号，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram资讯频道

推荐阅读

蓝鲸新闻

2026/03/06 08:48

OpenClaw火了，最先赚钱的是上门安装，500元一次

PA一线

2026/01/27 05:55

DeepSeek发布DeepSeek-OCR 2，AI能够以与人类相同的逻辑顺序“看”一张图片

PA一线

2026/01/21 00:58

DeepSeek新模型MODEL1代码曝光，疑为全新架构

PA一线

2026/01/09 13:18

外媒：DeepSeek将于2月发布下一代旗舰AI模型

PA一线

2026/01/01 09:37

DeepSeek发布梁文锋署名新论文：提出mHC新架构提升大模型训练稳定性

博闻札记

2025/12/23 13:00

强化学习：去中心化AI网络的范式变迁