DeepSeek發布DeepGEMM:高效FP8 GEMM庫,優化V3/R1訓練與推理

PANews 2月26日訊息,DeepSeek在其開源週(OpenSourceWeek)第三天推出DeepGEMM,一個支援FP8 GEMM 的CUDA庫,可用於稠密矩陣計算和混合專家(MoE)架構,優化V3/R1模型的訓練和推理。

DeepGEMM 關鍵特性:

• 超高效能:在Hopper GPU上實現1350+ FP8 TFLOPS

• 極簡依賴:無繁重依賴,程式碼簡潔如教學

• JIT即時編譯:無需預先編譯,執行時自動最佳化

• 核心程式碼僅約300行,但在大多數矩陣尺寸下效能超越專家級最佳化內核

• 支援稠密佈局和兩種MoE佈局

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
2026-01-01 09:37
2025-12-23 13:00
2025-12-22 09:24
2025-12-04 07:40
2025-12-02 00:14
2025-11-27 13:45

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读