Fotoğrafları Hem Görüntüye Dönüştürüp Hem de Seslendirebilen Yapay Zekâ Aracı EMO Tanıtıldı
Alibaba Group’un Akıllı Bilgisayar Enstitüsü‘nden araştırmacılar Linrui Tian, Qi Wang, Bang Zhang ve Liefeng Bo, yapay zekânın seçili metinleri okuyabilmelerini, okudukları metinlere göre de yüz ifadelerini akıcı şekilde değiştirebilmelerini sağlayan bir yapay zekâ olan EMO’yu tanıttı.
Ağız hareketleri, sözlere uygun olarak değişiyor
EMO’nun en dikkat çeken yanı, bir fotoğrafı ya da görseli konuşturması değil, bunu yapan başka çok sayıda uygulama görmüştük. Bu yapay zekâ aracının en önemli farkı, önceden hazırlanmış konfigürasyonun dışında seslere göre de görselleri canlandırabilmesi. Ayrıca ağız hareketleri de sözlere uygun olacak şekilde değişiyor. Yani görsel, tam anlamıyla sese uygun olarak videoya dönüştürülüyor.
Bir diğer dikkat çekici özellik ise yapay zekâ aracının, ses kaynağına göre temposunu ayarlayabilmesi. Sakin sakin konuşma ile rap yapma arasındaki farkı anlayabilen yapay zekâ, animasyonlarda da jest ve mimiklerin, ağız hareketlerinin temposunu buna göre ayarlıyor. Üstelik yapay zekâ, animasyon karakterlerini, yapay zekânın oluşturduğu görselleri ya da anime karakterlerini de konuşturmayı başarabiliyor.
Peki nasıl çalışıyor?
Araştırmacılar, yapay zekâ modelinin özünde iki kısımdan oluştuğunu belirtiyor. Bunlardan biri, görseli tanımlayıp referans görselden yola çıkarak hareketli kareleri oluşturuyor. Diğeri ise ses dosyasını tanımlayarak anahtar noktaları belirliyor. Sonrasında da anahtar noktalar ile görseller eşleştiriliyor. Yapay zekânın iki de kontrol modülü bulunuyor. Bunlardan biri, görseldeki karakterin değişmeden kaldığına emin olurken diğeri ise sesi kontrol ediyor. Her iki taraftan gelen sonuçlar daha sonra birleştiriliyor.