DeepSeek推出NSA機制提升長上下文訓練與推理效率

PANews 2月18日消息，DeepSeek宣布推出NSA（稀疏注意力機制），該機制與硬體高度一致且支援本機訓練，旨在實現超快速的長上下文訓練和推理。透過針對現代硬體的最佳化設計，NSA在加速推理速度的同時顯著降低預訓練成本，且不會影響模型效能。

根據官方介紹，NSA在通用基準測試、長上下文任務以及基於指令的推理中表現優異，與完全注意力模型相比表現相當甚至更佳。

原文連結

分享至：

作者：PA一线

本內容只為提供市場資訊，不構成投資建議。

關注PANews官方賬號，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram資訊頻道

@PANews

推薦閱讀

PA一线

2026/03/31 上午10:20

DeepSeek服務中斷一小時後恢復

PA一线

2026/03/30 上午02:37

DeepSeek服務恢復正常，先前崩潰約12小時

danny

2026/03/23 下午12:40

一般人如何用4小時系統性了解一個垂直領域

PA一线

2026/03/17 下午03:25

樂天集團開放日文大模型Rakuten AI 3.0，被揭露基於DeepSeek V3架構而引發爭議

Cj_Blockchain

2026/03/17 上午11:12

TAO的DeepSeek時刻：Templar (SN3)的崛起

PA一线

2026/03/12 上午11:35

英偉達五年內將投入260億美元打造開放權重AI模型

熱搜:比特幣以太坊穩定幣預測市場川普 RWA USDT DeFi AI 聯準會主席

熱門文章

當AI成為經濟主體後，為何以太坊成為Agent的金融最優解？

Felix

稳居AI第一的Bittensor：技术在进化，用户在逃离？

BlockBooster

從金融危機前成立對沖基金失敗到管理兆資產，貝萊德全球固收首席投資長講述投資心法

Felix

過去24小時全網合約爆倉2.66億美元，主爆多單

PA一线

BTC突破73,000美元，日內漲幅 0.36%

PA一线

行業要聞

市場熱點

精選讀物

點擊訂閱

PANews APP

24小時追蹤區塊鏈行業資訊，行業深度文章解析。

App Store Google Play

某地址昨晚開啟6,700張ETH的25倍空單，只有9美元的清算空間

PANews 快訊10 分鐘前