DeepSeek发布《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文

PANews 2月18日消息,DeepSeek团队近日发布了一篇题为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的技术论文,介绍了他们提出的NSA(Natively Sparse Attention)机制。NSA结合了算法创新和硬件优化,旨在实现高效的长文本建模。其核心创新包括:

1. 动态分层稀疏策略,结合粗粒度的令牌压缩与细粒度的令牌选择,以保留全局上下文信息和局部精度;

2. 通过平衡算术强度的算法设计和现代硬件优化,显著加速计算;

3. 支持端到端训练,减少预训练计算成本,同时保持模型性能。

实验结果表明,NSA在长文本任务和指令推理等领域表现优异,尤其在64k长度的序列处理中,实现了解码、前向传播和反向传播的显著加速。

分享至:

作者:PA一线

本内容只为提供市场信息,不构成投资建议。

关注PANews官方账号,一起穿越牛熊
推荐阅读
15小时前
2025-12-22 09:24
2025-12-04 07:40
2025-12-02 00:14
2025-11-27 13:45
2025-11-24 06:37

热门文章

行业要闻
市场热点
精选读物

精选专题

App内阅读