Kani-TTS-2: 3GB VRAM ile Çalışan Açık Kaynak Ses Klonlama Modeli

Açık kaynak dünyasından dikkat çekici bir proje geldi: Kani-TTS-2. 400 milyon parametreli bu text-to-speech modeli — yani yazılı metni sesli konuşmaya çeviren bir yapay zeka — sadece 3GB VRAM ile çalışabiliyor. Bu rakamı perspektife oturtmak gerekirse, orta segment bir oyun bilgisayarı bile bu modeli rahatça çalıştırabilir.

Kani-TTS-2'nin asıl dikkat çeken özelliği ise ses klonlama desteği. Modele birkaç saniyelik bir ses kaydı verdiğinizde, o sesin tonunu, ritmini ve karakteristiğini taklit ederek yeni metinleri o sesle okuyabiliyor. Bu tür bir teknoloji daha önce sadece ElevenLabs, Play.ht gibi ücretli platformlarda mevcuttu — şimdi açık kaynak olarak herkesin erişimine açılıyor.

Açık kaynak olması da ayrıca önemli. Araştırmacılar modelin iç yapısını inceleyebiliyor, geliştiriciler kendi dillerine uyarlayabiliyor. Özellikle Türkçe gibi büyük TTS modellerinde hâlâ eksikliklerin olduğu dillerde, bu tür projelerin fine-tune edilmesi — yani belirli bir dil için özelleştirilmesi — önemli fırsatlar sunuyor. Erişilebilirlik uygulamalarından podcast üretimine, e-öğrenimden sesli kitaplara kadar geniş bir kullanım alanı var.

Tabii ses klonlama teknolojisinin bir de karanlık yüzü var. Deepfake ses üretimi, dolandırıcılık ve dezenformasyon amacıyla kullanılabiliyor. Bu yüzden bu tür araçlar yaygınlaştıkça, etik kullanım kurallarının ve tespit mekanizmalarının da paralel olarak gelişmesi gerekiyor.

Kani-TTS-2: 3GB VRAM ile Çalışan Açık Kaynak Ses Klonlama Modeli

İlgili Haberler

Adobe Firefly Quick Cut: AI ile Video Kurgusu Otomatikleşiyor

Anthropic Üç Çinli Şirketi Claude'u Kopyalamakla Suçladı

Jira'da Artık AI Ajanlarına Görev Atanabiliyor