DeepSeek发布DeepGEMM:高效FP8 GEMM库,优化V3/R1训练与推理

PANews 2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出 DeepGEMM,一个支持 FP8 GEMM 的CUDA库,可用于稠密矩阵计算和混合专家(MoE)架构,优化V3/R1模型的训练和推理。

DeepGEMM 关键特性:

• 超高性能:在Hopper GPU上实现 1350+ FP8 TFLOPS

• 极简依赖:无繁重依赖,代码简洁如教程

• JIT即时编译:无需预编译,运行时自动优化

• 核心代码仅约300行,但在大多数矩阵尺寸下性能超越专家级优化内核

• 支持稠密布局和两种MoE布局

分享至:

作者:PA一线

本内容只为提供市场信息,不构成投资建议。

关注PANews官方账号,一起穿越牛熊
推荐阅读
2026-01-01 09:37
2025-12-23 13:00
2025-12-22 09:24
2025-12-04 07:40
2025-12-02 00:14
2025-11-27 13:45

热门文章

行业要闻
市场热点
精选读物

精选专题

App内阅读