DeepSeek が長期コンテキストのトレーニングと推論の効率を向上させる NSA メカニズムを導入

PANewsは2月18日、DeepSeekがハードウェアとの整合性が高くネイティブトレーニングをサポートし、超高速のロングコンテキストトレーニングと推論の実現を目指すNSA(Sparse Attention Mechanism)の発売を発表したと報じた。 NSA は、最新のハードウェア向けに最適化された設計により、モデルのパフォーマンスに影響を与えることなく推論速度を加速しながら、事前トレーニング コストを大幅に削減します。

公式紹介によると、NSA は一般的なベンチマーク、長いコンテキストのタスク、および命令ベースの推論で優れたパフォーマンスを発揮し、フルアテンションモデルと同等かそれ以上のパフォーマンスを発揮します。

共有先:

著者:PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう