DeepSeek發布《原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制》論文

PANews 2月18日消息,DeepSeek團隊近日發布了一篇題為《原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制》的技術論文,介紹了他們提出的NSA(Natively Sparse Attention)機制。 NSA結合了演算法創新和硬體優化,旨在實現高效的長文本建模。其核心創新包括:

1. 動態分層稀疏策略,結合粗粒度的令牌壓縮與細粒度的令牌選擇,以保留全域上下文資訊與局部精確度;

2. 透過平衡算術強度的演算法設計和現代硬體最佳化,顯著加速計算;

3. 支援端到端訓練,減少預訓練計算成本,同時維持模型效能。

實驗結果表明,NSA在長文本任務和指令推理等領域表現優異,尤其在64k長度的序列處理中,實現了解碼、前向傳播和反向傳播的顯著加速。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
PANews APP
聯準會主席沃什:將推動以改革為導向的央行治理框架
PANews 快訊