PANewsは9月12日、アリババのTongyi Qianwen(同益前文)が次世代基本モデルアーキテクチャQwen3-Nextをリリースし、このアーキテクチャに基づいてQwen3-Next-80B-A3Bシリーズモデルをオープンソース化したと報じた。Qwen3 MoEモデルアーキテクチャと比較して、このアーキテクチャは、ハイブリッドアテンションメカニズム、高度にスパースなMoE構造、安定したユーザーフレンドリーなトレーニングのための一連の最適化、推論効率を向上させるマルチトークン予測メカニズムなどのコア改善を特徴としている。アリババはQwen3-Nextモデルアーキテクチャに基づいて、800億のパラメータを持ちながら30億のみをアクティブにするQwen3-Next-80B-A3B-Baseモデルをトレーニングした。このBaseモデルは、Qwen3-32B稠密モデルと同等かわずかに優れた性能を実現しながら、トレーニングコスト(GPU時間)はQwen3-32Bの10分の1以下となっている。 32K を超えるコンテキストでの推論スループットは Qwen3-32B の 10 倍以上であり、トレーニングと推論の両方で優れたコスト効率を実現します。
アリババ、より効率的なQwen3-Next人工知能モデルを発表
共有先:
著者:PA一线
この内容は市場情報の提供のみを目的としており、投資助言を構成しません。
PANews公式アカウントをフォローして、一緒に強気相場と弱気相場を乗り越えましょう
おすすめ記事
