DeepSeek發布《原生稀疏注意力：硬體對齊且可原生訓練的稀疏注意力機制》論文

PANews 2月18日消息，DeepSeek團隊近日發布了一篇題為《原生稀疏注意力：硬體對齊且可原生訓練的稀疏注意力機制》的技術論文，介紹了他們提出的NSA（Natively Sparse Attention）機制。 NSA結合了演算法創新和硬體優化，旨在實現高效的長文本建模。其核心創新包括：

1. 動態分層稀疏策略，結合粗粒度的令牌壓縮與細粒度的令牌選擇，以保留全域上下文資訊與局部精確度；

2. 透過平衡算術強度的演算法設計和現代硬體最佳化，顯著加速計算；

3. 支援端到端訓練，減少預訓練計算成本，同時維持模型效能。

實驗結果表明，NSA在長文本任務和指令推理等領域表現優異，尤其在64k長度的序列處理中，實現了解碼、前向傳播和反向傳播的顯著加速。

原文連結

分享至：

作者：PA一线

本內容只為提供市場資訊，不構成投資建議。

關注PANews官方賬號，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram資訊頻道

@PANews

推薦閱讀

PA一线

2026/05/19 上午11:02

DeepSeek：輸入等字元觸發返回異常內容屬於特殊字元引發的模型幻覺，不涉及安全問題或隱私洩露

BiyaNews

2026/05/12 上午07:48

AI投资版图正在重塑：除了“七巨头”，半导体供应链还有哪些机会？

PA一线

2026/05/09 上午10:39

阿里未參與DeepSeek融資談判，市場人士否認「談崩」傳聞

PA一线

2026/05/08 上午11:47

DeepSeek據稱擬融資超 500億元，推動商業化創收佈局

PA一线

2026/05/06 上午06:21

外媒：DeepSeek的估值接近450億美元

PA一线

2026/04/30 上午10:55

DeepSeek發布視覺基元推理方法，提升多模態複雜推理能力

相關專題

加密隱私的復興：從硬蕊到剛需

加密隱私迎來戲劇性的敘事翻轉，從邊緣小眾賽道加速轉向底層基礎設施剛需。

79篇文章

AI Agent的N个平行世界

一个属于Agent的平行经济，正在悄无声息地成形。

156篇文章

新項目精選：捕捉Web3新敘事

Web3迎來大發展時代，新專案不斷湧現。該專題對這些新項目進行收集、整理、篩選，希望讀者能從中捕捉到新敘事。

441篇文章

熱搜:比特幣以太坊穩定幣預測市場川普 RWA USDT DeFi AI 聯準會主席

熱門文章

CPO 元年：光互连产业链最大的一次重构

Merkle3s Capital

刑拘 37 天，第一批靠“AI 中转站”发财的人开始进去了

邵诗巍

對話Glassnode分析師：比特幣牛市已重啟，當前市場仍處於「逢漲賣出」階段

Felix

AI需求未見轉折點，以英偉達財報為例，聊聊如何分析財報

戈多Godot

HYPE重返高位：AI IPO 热潮，正在催生“链上纳斯达克”

CryptoPulse

行業要聞

市場熱點

精選讀物

點擊訂閱

PANews APP

24小時追蹤區塊鏈行業資訊，行業深度文章解析。

App Store Google Play

聯準會主席沃什：將推動以改革為導向的央行治理框架

PANews 快訊1 小時前