DeepSeek が論文「ネイティブ スパース アテンション: ハードウェア アラインメントとネイティブにトレーニング可能なスパース アテンション メカニズム」を発表

PANews は 2 月 18 日に、DeepSeek チームが最近「ネイティブ スパース アテンション: ハードウェアに合わせたネイティブにトレーニング可能なスパース アテンション メカニズム」と題した技術論文を発表し、提案された NSA (ネイティブ スパース アテンション) メカニズムを紹介したと報じました。 NSA は、アルゴリズムの革新とハードウェアの最適化を組み合わせて、効率的な長いテキスト モデリングを実現します。その中核となる革新には以下が含まれます。

1. 粗粒度のトークン圧縮と細粒度のトークン選択を組み合わせて、グローバルなコンテキスト情報とローカルな精度を維持する動的階層型スパース戦略。

2. バランスのとれたアルゴリズム設計と最新のハードウェア最適化により計算を大幅に高速化します。

3. エンドツーエンドのトレーニングをサポートし、モデルのパフォーマンスを維持しながらトレーニング前の計算コストを削減します。

実験結果によると、NSA は長いテキスト タスクや命令推論などの領域、特に 64k 長のシーケンス処理で優れたパフォーマンスを発揮し、デコード、順方向伝播、逆方向伝播の大幅な高速化を実現します。

共有先:

著者:PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、一緒に強気相場と弱気相場を乗り越えましょう
おすすめ記事
15時間前
2025-12-22 09:24
2025-12-04 07:40
2025-12-02 00:14
2025-11-27 13:45
2025-11-24 06:37

人気記事

業界ニュース
市場ホットスポット
厳選読み物

厳選特集

App内阅读