PANews는 2월 18일 DeepSeek이 하드웨어와의 일관성이 뛰어나고 기본 학습을 지원하는 NSA(Sparse Attention Mechanism) 출시를 발표했으며, 이를 통해 초고속 장기 컨텍스트 학습 및 추론을 달성할 계획이라고 보도했습니다. NSA는 최신 하드웨어에 맞춰 최적화된 설계를 통해 모델 성능에 영향을 주지 않으면서도 추론 속도를 높이는 동시에 사전 학습 비용을 크게 줄입니다.
공식 소개에 따르면, NSA는 일반적인 벤치마크, 장기 컨텍스트 작업, 명령어 기반 추론에서 좋은 성능을 발휘하며, 전체 주의 모델과 동등하거나 더 나은 성능을 보입니다.
