DeepSeek에서 V3/R1 학습 및 추론을 최적화하는 효율적인 FP8 GEMM 라이브러리인 DeepGEMM 출시

PANews는 2월 26일 DeepSeek이 OpenSourceWeek 3일차에 DeepGEMM을 출시했다고 보도했습니다. DeepGEMM은 FP8 GEMM을 지원하고 고밀도 행렬 계산과 전문가 혼합(MoE) 아키텍처에 사용할 수 있는 CUDA 라이브러리로, V3/R1 모델의 학습과 추론을 최적화합니다.

DeepGEMM 주요 기능:

• 초고성능: Hopper GPU에서 1350+ FP8 TFLOPS

• 최소 종속성: 무거운 종속성 없음, 튜토리얼과 같은 간단한 코드

• JIT 컴파일: 사전 컴파일 필요 없음, 런타임 시 자동 최적화

• 핵심 코드는 약 300줄에 불과하지만 대부분의 행렬 크기에 대해 전문가가 최적화한 커널보다 성능이 뛰어납니다.

• 고밀도 레이아웃과 2개의 MoE 레이아웃 지원

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
2026-01-01 09:37
2025-12-23 13:00
2025-12-22 09:24
2025-12-04 07:40
2025-12-02 00:14
2025-11-27 13:45

인기 기사

업계 뉴스
시장 핫스팟
엄선된 읽을거리

엄선 특집

App内阅读