DeepSeek推出NSA機制提升長上下文訓練與推理效率

PANews 2月18日消息,DeepSeek宣布推出NSA(稀疏注意力機制),該機制與硬體高度一致且支援本機訓練,旨在實現超快速的長上下文訓練和推理。透過針對現代硬體的最佳化設計,NSA在加速推理速度的同時顯著降低預訓練成本,且不會影響模型效能。

根據官方介紹,NSA在通用基準測試、長上下文任務以及基於指令的推理中表現優異,與完全注意力模型相比表現相當甚至更佳。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
2025-12-23 13:00
2025-12-22 09:24
2025-12-04 07:40
2025-12-02 00:14
2025-11-27 13:45
2025-11-24 06:37

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读