PANews는 2월 18일 DeepSeek 팀이 최근 "네이티브 스파스 어텐션: 하드웨어 정렬 및 네이티브 학습 가능한 스파스 어텐션 메커니즘"이라는 제목의 기술 논문을 발표했으며, 제안된 NSA(네이티브 스파스 어텐션) 메커니즘을 소개했다고 보도했습니다. NSA는 알고리즘 혁신과 하드웨어 최적화를 결합하여 효율적인 장문 텍스트 모델링을 달성했습니다. 핵심 혁신은 다음과 같습니다.
1. 글로벌 컨텍스트 정보와 로컬 정확도를 보존하기 위해 세분화된 토큰 압축과 세분화된 토큰 선택을 결합하는 동적 계층적 스파스 전략
2. 균형 잡힌 알고리즘 설계와 최신 하드웨어 최적화를 통해 계산을 크게 가속화합니다.
3. 종단 간 학습을 지원하여 모델 성능을 유지하는 동시에 사전 학습 계산 비용을 줄입니다.
실험 결과에 따르면 NSA는 장문 텍스트 작업과 명령어 추론, 특히 64k 길이의 시퀀스 처리 분야에서 좋은 성능을 보이며 디코딩, 순방향 전파, 역방향 전파를 상당히 가속화합니다.
