Microsoft 3 Yeni Temel Model Tanıttı: Ses, Görsel, Transkript
Microsoft, MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2 modellerini duyurdu. Suleyman'ın süper zeka ekibinden gelen modeller rekabeti kızıştırıyor.
Mustafa Suleyman'ın Kasım 2025'te kurduğu Microsoft AI "süper zeka" ekibinden ilk somut çıktılar geldi: üç yeni temel model — MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2.
MAI-Transcribe-1 konuşmayı metne çeviriyor. 25 dilde çalışan model, Azure'un mevcut Fast Transcription hizmetinden 2,5 kat daha hızlı ve saati 0,36 dolar. Kurumsal müşteriler için bu maliyet avantajı ciddi: düşünün, bir çağrı merkezinin günlük binlerce aramayı transkript etme gideri yarıya düşüyor.
MAI-Voice-1 ise işi tersine çeviriyor — metin girdisinden ses üretiyor. Modelin öne çıkan özelliği hız: 1 saniyede 60 saniyelik ses üretebiliyor. Özel ses profili oluşturma desteğiyle birlikte geliyor ve maliyeti milyon karakter başına 22 dolar. Podcast üretiminden müşteri hizmetleri botlarına kadar geniş bir kullanım alanı hedefleniyor.
Üçüncü model MAI-Image-2, görsel üretim alanında Microsoft'un cevabı. İlk olarak 19 Mart'ta MAI Playground'da sessizce yayınlanan model, şimdi Microsoft Foundry API'si üzerinden kurumsal erişime açıldı. Fiyatlandırma: giriş için milyon token başına 5 dolar, çıkış için 33 dolar.
Suleyman'ın "Microsoft AI'da insancıl yapay zeka inşa ediyoruz" şeklindeki açıklaması, şirketin bu modelleri salt teknik ürünler olarak değil, daha geniş bir vizyon çerçevesinde konumlandırdığını gösteriyor. Bu üç model, Microsoft'un OpenAI'a bağımlılığını azaltma stratejisinin de somut bir yansıması. Şirket artık sadece başkalarının modellerini barındıran bir platform değil, kendi temel modellerini üreten bir oyuncu olmak istiyor. Modeller Microsoft Foundry ve MAI Playground üzerinden kullanıma açık.