İçeriğe geç
Şirketler/1 dk okuma/Hugging Face/

Alibaba Qwen 3.5: Hibrit Dikkat Mekanizmalı 397B MoE Model

Qwen 3.5-397B, Gated DeltaNet hibrit dikkat ve 17B aktif parametre ile 1M token bağlam sunuyor. 201 dil desteği ve agent yetenekleri.

Can Demir·
Paylaş

Alibaba'nın Qwen ekibi, yeni nesil açık kaynak modeli Qwen 3.5-397B-A17B'yi yayınladı. 397 milyar toplam parametre içinden her seferinde yalnızca 17 milyar aktif parametre kullanan Mixture-of-Experts (MoE) modeli, dikkat mekanizması konusunda sektörde yeni bir sayfa açıyor.

Modelin en dikkat çekici yeniliği hibrit dikkat mimarisi. Standart "tam dikkat" (full attention) ile doğrusal dikkat (linear attention) katmanlarını 3:1 oranında karıştırıyor — her dört transformer bloğunun üçü doğrusal dikkat kullanan Gated DeltaNet katmanlarından oluşurken, dördüncü blok geleneksel tam dikkat kullanıyor. Sonuç: uzun bağlamlarda çok daha verimli işlem ve 1 milyon token bağlam penceresi. Qwen 3'ten farklı olarak görsel anlama yeteneği modelin temelinden başlayarak eğitilmiş — MMMU benchmark'ında 85.0 puan alarak önceki Qwen3-VL'nin 80.6'sını aşıyor. Dil desteği de Qwen 3'ün 119 dilinden 201 dil ve lehçeye genişletilmiş.

BenchmarkQwen 3.5GPT-5.2Claude Opus 4.6
AIME 202691.396.793.3
IFBench76.575.458.0
SWE-bench76.480.080.9
BrowseComp78.6
MMMU (görsel)85.0

Qwen 3.5 hiçbir kategoride mutlak birinci değil, ama talimat takibinde (IFBench) tüm modelleri geçiyor ve genel olarak en dengeli profili sunuyor.

Dikkat mekanizması, yapay zeka alanının yeni savaş alanına dönüştü. Bir yıl önce herkes "MoE mi yoksa Dense mi?" diye tartışıyordu — bu soru artık kapandı. Şimdi tartışma, dikkati nasıl yöneteceğinize kaydı: Qwen 3.5 ve Kimi K2.5 hibrit yaklaşımı tercih ederken, MiniMax tamamen doğrusal dikkate gidiyor, GLM-5 ise DeepSeek tarzı seyrek seçim kullanıyor. Benchmark dünyası da değişti — artık sohbet robotu benchmarkları yerine ajansal iş yükleri ön planda: SWE-bench, BrowseComp, TAU2-Bench, MCPMark. AI modellerinin bir chatbot olarak ne kadar iyi konuştuğu değil, gerçek dünyada ne kadar iyi iş çıkardığı ölçülüyor.

Açık ağırlıklı model olması, kendi altyapınızda çalıştırabilmeniz anlamına geliyor. 17B aktif parametre ile görece düşük hesaplama maliyeti, erişilebilir bir seçenek sunuyor. Model ağırlıkları Hugging Face'te açık erişimde, API ise qwen.ai üzerinden kullanılabilir.

İlgili Haberler