PANewsは2月18日、DeepSeekがハードウェアとの整合性が高くネイティブトレーニングをサポートし、超高速のロングコンテキストトレーニングと推論の実現を目指すNSA(Sparse Attention Mechanism)の発売を発表したと報じた。 NSA は、最新のハードウェア向けに最適化された設計により、モデルのパフォーマンスに影響を与えることなく推論速度を加速しながら、事前トレーニング コストを大幅に削減します。
公式紹介によると、NSA は一般的なベンチマーク、長いコンテキストのタスク、および命令ベースの推論で優れたパフォーマンスを発揮し、フルアテンションモデルと同等かそれ以上のパフォーマンスを発揮します。
