Alibaba Qwen 3.5: Hibrit Dikkat Mekanizmalı 397B MoE Model

Alibaba'nın Qwen ekibi, yeni nesil açık kaynak modeli Qwen 3.5-397B-A17B'yi yayınladı. 397 milyar toplam parametre içinden her seferinde yalnızca 17 milyar aktif parametre kullanan Mixture-of-Experts (MoE) modeli, dikkat mekanizması konusunda sektörde yeni bir sayfa açıyor.

Modelin en dikkat çekici yeniliği hibrit dikkat mimarisi. Standart "tam dikkat" (full attention) ile doğrusal dikkat (linear attention) katmanlarını 3:1 oranında karıştırıyor — her dört transformer bloğunun üçü doğrusal dikkat kullanan Gated DeltaNet katmanlarından oluşurken, dördüncü blok geleneksel tam dikkat kullanıyor. Sonuç: uzun bağlamlarda çok daha verimli işlem ve 1 milyon token bağlam penceresi. Qwen 3'ten farklı olarak görsel anlama yeteneği modelin temelinden başlayarak eğitilmiş — MMMU benchmark'ında 85.0 puan alarak önceki Qwen3-VL'nin 80.6'sını aşıyor. Dil desteği de Qwen 3'ün 119 dilinden 201 dil ve lehçeye genişletilmiş.

Benchmark	Qwen 3.5	GPT-5.2	Claude Opus 4.6
AIME 2026	91.3	96.7	93.3
IFBench	76.5	75.4	58.0
SWE-bench	76.4	80.0	80.9
BrowseComp	78.6	—	—
MMMU (görsel)	85.0	—	—

Qwen 3.5 hiçbir kategoride mutlak birinci değil, ama talimat takibinde (IFBench) tüm modelleri geçiyor ve genel olarak en dengeli profili sunuyor.

Dikkat mekanizması, yapay zeka alanının yeni savaş alanına dönüştü. Bir yıl önce herkes "MoE mi yoksa Dense mi?" diye tartışıyordu — bu soru artık kapandı. Şimdi tartışma, dikkati nasıl yöneteceğinize kaydı: Qwen 3.5 ve Kimi K2.5 hibrit yaklaşımı tercih ederken, MiniMax tamamen doğrusal dikkate gidiyor, GLM-5 ise DeepSeek tarzı seyrek seçim kullanıyor. Benchmark dünyası da değişti — artık sohbet robotu benchmarkları yerine ajansal iş yükleri ön planda: SWE-bench, BrowseComp, TAU2-Bench, MCPMark. AI modellerinin bir chatbot olarak ne kadar iyi konuştuğu değil, gerçek dünyada ne kadar iyi iş çıkardığı ölçülüyor.

Açık ağırlıklı model olması, kendi altyapınızda çalıştırabilmeniz anlamına geliyor. 17B aktif parametre ile görece düşük hesaplama maliyeti, erişilebilir bir seçenek sunuyor. Model ağırlıkları Hugging Face'te açık erişimde, API ise qwen.ai üzerinden kullanılabilir.

Alibaba Qwen 3.5: Hibrit Dikkat Mekanizmalı 397B MoE Model

İlgili Haberler

Adobe Firefly Quick Cut: AI ile Video Kurgusu Otomatikleşiyor

Anthropic Üç Çinli Şirketi Claude'u Kopyalamakla Suçladı

Jira'da Artık AI Ajanlarına Görev Atanabiliyor