DeepSeek에서 V3/R1 학습 및 추론을 최적화하는 효율적인 FP8 GEMM 라이브러리인 DeepGEMM 출시

PANews는 2월 26일 DeepSeek이 OpenSourceWeek 3일차에 DeepGEMM을 출시했다고 보도했습니다. DeepGEMM은 FP8 GEMM을 지원하고 고밀도 행렬 계산과 전문가 혼합(MoE) 아키텍처에 사용할 수 있는 CUDA 라이브러리로, V3/R1 모델의 학습과 추론을 최적화합니다.

DeepGEMM 주요 기능:

• 초고성능: Hopper GPU에서 1350+ FP8 TFLOPS

• 최소 종속성: 무거운 종속성 없음, 튜토리얼과 같은 간단한 코드

• JIT 컴파일: 사전 컴파일 필요 없음, 런타임 시 자동 최적화

• 핵심 코드는 약 300줄에 불과하지만 대부분의 행렬 크기에 대해 전문가가 최적화한 커널보다 성능이 뛰어납니다.

• 고밀도 레이아웃과 2개의 MoE 레이아웃 지원

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
관련 특집
PANews APP
로빈후드가 뉴욕주 사용자를 대상으로 알고리즘 트레이딩 서비스를 시작했습니다.
PANews 속보