DeepSeek が DeepGEMM をリリース: V3/R1 のトレーニングと推論を最適化する効率的な FP8 GEMM ライブラリ

PANews は 2 月 26 日、DeepSeek が OpenSourceWeek の 3 日目に DeepGEMM をリリースしたと報じました。DeepGEMM は FP8 GEMM をサポートし、密行列計算や専門家混合 (MoE) アーキテクチャに使用して V3/R1 モデルのトレーニングと推論を最適化できる CUDA ライブラリです。

DeepGEMMの主な機能:

• 超高性能: Hopper GPU で 1350+ FP8 TFLOPS

• 最小限の依存関係: 重い依存関係はなく、チュートリアルのようなシンプルなコード

• JIT コンパイル: 事前コンパイルは不要、実行時に自動的に最適化

• コアコードはわずか300行程度ですが、ほとんどの行列サイズで専門家が最適化したカーネルよりも優れたパフォーマンスを発揮します。

• 密集レイアウトと2つのMoEレイアウトをサポート

共有先:

著者:PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう