DeepSeek發布《原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制》論文

PANews 2月18日消息,DeepSeek團隊近日發布了一篇題為《原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制》的技術論文,介紹了他們提出的NSA(Natively Sparse Attention)機制。 NSA結合了演算法創新和硬體優化,旨在實現高效的長文本建模。其核心創新包括:

1. 動態分層稀疏策略,結合粗粒度的令牌壓縮與細粒度的令牌選擇,以保留全域上下文資訊與局部精確度;

2. 透過平衡算術強度的演算法設計和現代硬體最佳化,顯著加速計算;

3. 支援端到端訓練,減少預訓練計算成本,同時維持模型效能。

實驗結果表明,NSA在長文本任務和指令推理等領域表現優異,尤其在64k長度的序列處理中,實現了解碼、前向傳播和反向傳播的顯著加速。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
15小時前
2025-12-22 09:24
2025-12-04 07:40
2025-12-02 00:14
2025-11-27 13:45
2025-11-24 06:37

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读