알리바바, 더욱 효율적인 인공지능 모델 'Qwen3-Next' 출시

PANews는 9월 12일 Alibaba의 Tongyi Qianwen이 차세대 기본 모델 아키텍처인 Qwen3-Next를 출시하고 이 아키텍처를 기반으로 Qwen3-Next-80B-A3B 시리즈 모델을 오픈 소스화했다고 보도했습니다. Qwen3 MoE 모델 아키텍처와 비교하여 이 아키텍처는 다음과 같은 핵심 개선 사항을 특징으로 합니다. 하이브리드 어텐션 메커니즘, 고도로 희소한 MoE 구조, 안정적이고 사용자 친화적인 학습을 위한 일련의 최적화, 추론 효율성을 개선하기 위한 다중 토큰 예측 메커니즘입니다. Alibaba는 Qwen3-Next 모델 아키텍처를 기반으로 800억 개의 매개변수가 있지만 30억 개만 활성화하는 Qwen3-Next-80B-A3B-Base 모델을 학습했습니다. 이 Base 모델은 Qwen3-32B 밀집 모델과 비슷하거나 약간 더 나은 성능을 달성하는 반면 학습 비용(GPU 시간)은 Qwen3-32B의 1/10 미만입니다. 32k 이상의 컨텍스트에 대한 추론 처리량은 Qwen3-32B보다 10배 이상 높아서 학습과 추론 모두에서 뛰어난 비용 효율성을 달성합니다.

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
2025-09-11 23:26
2025-09-11 23:18
2025-09-11 23:08
2025-09-11 22:24
2025-09-11 16:04
2025-09-11 15:47

인기 기사

업계 뉴스
시장 핫스팟
엄선된 읽을거리

엄선 특집

App内阅读