PANews は 2 月 18 日に、DeepSeek チームが最近「ネイティブ スパース アテンション: ハードウェアに合わせたネイティブにトレーニング可能なスパース アテンション メカニズム」と題した技術論文を発表し、提案された NSA (ネイティブ スパース アテンション) メカニズムを紹介したと報じました。 NSA は、アルゴリズムの革新とハードウェアの最適化を組み合わせて、効率的な長いテキスト モデリングを実現します。その中核となる革新には以下が含まれます。
1. 粗粒度のトークン圧縮と細粒度のトークン選択を組み合わせて、グローバルなコンテキスト情報とローカルな精度を維持する動的階層型スパース戦略。
2. バランスのとれたアルゴリズム設計と最新のハードウェア最適化により計算を大幅に高速化します。
3. エンドツーエンドのトレーニングをサポートし、モデルのパフォーマンスを維持しながらトレーニング前の計算コストを削減します。
実験結果によると、NSA は長いテキスト タスクや命令推論などの領域、特に 64k 長のシーケンス処理で優れたパフォーマンスを発揮し、デコード、順方向伝播、逆方向伝播の大幅な高速化を実現します。
