Microsoft 3 Yeni Temel Model Tanıttı: Ses, Görsel, Transkript

Mustafa Suleyman'ın Kasım 2025'te kurduğu Microsoft AI "süper zeka" ekibinden ilk somut çıktılar geldi: üç yeni temel model — MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2.

MAI-Transcribe-1 konuşmayı metne çeviriyor. 25 dilde çalışan model, Azure'un mevcut Fast Transcription hizmetinden 2,5 kat daha hızlı ve saati 0,36 dolar. Kurumsal müşteriler için bu maliyet avantajı ciddi: düşünün, bir çağrı merkezinin günlük binlerce aramayı transkript etme gideri yarıya düşüyor.

MAI-Voice-1 ise işi tersine çeviriyor — metin girdisinden ses üretiyor. Modelin öne çıkan özelliği hız: 1 saniyede 60 saniyelik ses üretebiliyor. Özel ses profili oluşturma desteğiyle birlikte geliyor ve maliyeti milyon karakter başına 22 dolar. Podcast üretiminden müşteri hizmetleri botlarına kadar geniş bir kullanım alanı hedefleniyor.

Üçüncü model MAI-Image-2, görsel üretim alanında Microsoft'un cevabı. İlk olarak 19 Mart'ta MAI Playground'da sessizce yayınlanan model, şimdi Microsoft Foundry API'si üzerinden kurumsal erişime açıldı. Fiyatlandırma: giriş için milyon token başına 5 dolar, çıkış için 33 dolar.

Suleyman'ın "Microsoft AI'da insancıl yapay zeka inşa ediyoruz" şeklindeki açıklaması, şirketin bu modelleri salt teknik ürünler olarak değil, daha geniş bir vizyon çerçevesinde konumlandırdığını gösteriyor. Bu üç model, Microsoft'un OpenAI'a bağımlılığını azaltma stratejisinin de somut bir yansıması. Şirket artık sadece başkalarının modellerini barındıran bir platform değil, kendi temel modellerini üreten bir oyuncu olmak istiyor. Modeller Microsoft Foundry ve MAI Playground üzerinden kullanıma açık.

Mustafa Suleyman'ın Kasım 2025'te kurduğu Microsoft AI "süper zeka" ekibinden ilk somut çıktılar geldi: üç yeni temel model — MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2.

Microsoft 3 Yeni Temel Model Tanıttı: Ses, Görsel, Transkript

İlgili Haberler

Claude Code Kaynak Kodu Sızdı, Anthropic 8.100 GitHub Reposunu Kapattı

Anthropic, Coefficient Bio'yu 400 Milyon Dolara Satın Aldı

Google Gemma 4'u Apache 2.0 ile Açtı: Çin Kapatırken Google Açıyor

Microsoft 3 Yeni Temel Model Tanıttı: Ses, Görsel, Transkript

İlgili Haberler

Claude Code Kaynak Kodu Sızdı, Anthropic 8.100 GitHub Reposunu Kapattı

Anthropic, Coefficient Bio'yu 400 Milyon Dolara Satın Aldı

Google Gemma 4'u Apache 2.0 ile Açtı: Çin Kapatırken Google Açıyor