PANews는 4월 23일 DeepSeek이 고성능 GPU 연산자 라이브러리인 TileKernels를 GitHub 페이지에 오픈소스로 공개했다고 보도했습니다. 이 프로젝트는 TileLang을 기반으로 하며, 대규모 언어 모델(LLM)의 학습 및 추론에 최적화되어 있고, 연산자 성능은 하드웨어 연산 능력과 메모리 대역폭의 한계에 근접하고 있습니다.
TileKernels는 MoE 라우팅, FP8/FP4 양자화 및 다양한 융합 연산자를 지원하며, DeepSeek 내부 환경에서 이미 사용되고 있습니다. 이 라이브러리는 현재 NVIDIA SM90 및 최신 SM100(Blackwell) 아키텍처와 호환되며, CUDA 13.1 이상이 필요합니다.

