Microsoft araştırmacıları, yalnızca birkaç saniyelik eğitimle bir kişinin sesini taklit etmek için yapay zeka kullanan yeni bir program duyurdu. Ses modeli daha sonra metinden konuşmaya uygulamaları için kullanılabilir.
Araştırmacılar, arXiv’de (ücretsiz bir dağıtım hizmeti ve bilimsel makaleler için açık bir platform) yayınlanan bir makalede, VALL-E adlı bir uygulamanın yüksek kaliteli uyarlanabilir konuşmayı sentezlemek için kullanılabileceğini yazdı.
Artık konuşmayı kesip bir ses akışına yapıştırabilen programlar var ve bu konuşma, yazılan metinden konuşmacının sesine dönüştürülüyor. Ancak, mevcut uygulamalar, bir kişinin sesinin bir saat veya daha uzun süre kaydedilmesini gerektirir.
“Bu modelle ilgili harika şeylerden biri, saniyeler içinde yapması. Bu etkileyici,” dedi New York City’deki Reticle Research’ün baş analisti Ross Rubin.
Araştırmacılara göre VALL-E, konuşma doğallığı ve konuşmacı benzerliği açısından mevcut modern metinden konuşmaya (TTS) sistemlerden önemli ölçüde daha iyi performans gösteriyor.
Ayrıca VALL-E, konuşmacının duygularını ve akustik ortamı koruyabilir. Örneğin, telefonla bir konuşma örneği kaydedilirse, o sesi kullanan metin telefondan okunuyormuş gibi ses çıkarır.
süper sürükleyici
Bilgisayar bilimcisi ve yapay zeka destekli sentetik konuşma web sitesi Werner Herzog’un yaratıcısı Giacomo Miceli, VALL-E’nin 2022’nin başlarında piyasaya sürülen YourTTS gibi önceki son teknoloji sistemlere göre önemli bir gelişme olduğunu söyledi ve Slavoj Žižek’in asla -son sentetik konuşma.
TechNewsWorld’e konuşan Miceli , “VALL-E ile ilgili ilginç olan şey, sesin duygusal bir tınısı ve herhangi bir arka plan gürültüsü olsa bile, bir sesi klonlamak için yalnızca üç saniyelik sese ihtiyaç duyması .” Küresel pazar araştırma şirketi IDC’de yapay zeka ve otomasyondan sorumlu başkan yardımcısı Ritu Jyoti, VALL-E’yi “önemli ve çok etkileyici ” olarak nitelendirdi.
“Bu, mevcut programların yeni bir ses oluşturmak için çok daha uzun bir eğitim süresi gerektirdiği önceki modellere göre önemli bir gelişme.”
“Bu teknoloji için hala erken günler ve daha fazla iyileştirme onu insan benzeri yapabilir” diye ekledi.
Duygu öykünmesi söz konusu
ChatGPT’nin geliştiricisi OpenAI’den farklı olarak Microsoft, VALL-E’yi halka açmadı, bu nedenle işlevselliği hakkında sorular devam ediyor. Örneğin, uygulama tarafından oluşturulan konuşmanın bozulmasına neden olan faktörler var mı?
Miceli, ” Bir ses parçası ne kadar uzun süre kaydedilirse, sentezleyicinin daha düşük perdeler duyma olasılığı o kadar artar ” dedi. “Kelimeler net olmayabilir, atlanabilir veya konuşma sentezinde tekrarlanabilir.”
“Ayrıca, duyusal kayıtlar arasında geçiş yapmak doğal görünmeyebilir” diye ekledi.
Uygulamanın konuşmacının duygularını taklit etme yeteneği de sorgulanabilir. “Bu yeteneğin ne kadar sağlam olduğunu görmek ilginç olacak ,” dedi Mark N. Vienna, San Jose, California’daki SmartTech Research’ün başkanı ve baş analistidir.
“Daha uzun ses örnekleri gerektiren SI algoritmalarının mevcut sınırlamaları göz önüne alındığında, bunu yalnızca birkaç saniyelik sesle yapabileceklerine inanmak zor” .
Ahlaki kaygılar
Uzmanlar, VALL-E için faydalı uygulamaların yanı sıra pek kullanışlı olmayanlar da hayal ediyorlar. Jyoti, konuşma düzenleme ve seslendirme sanatçılarının değiştirilmesini getirdi. Miceli, teknolojinin podcast yayıncıları için düzenleme araçları oluşturmak, akıllı hoparlörlerin sesini ayarlamak ve mesajlaşma sistemlerine ve sohbet odalarına, video oyunlarına ve hatta navigasyon sistemlerine dahil edilebileceğini söyledi.
Miceli , “Madalyonun diğer yüzü, kötü niyetli bir kullanıcının bir politikacının sesini klonlayıp onlara gülünç veya kışkırtıcı şeyler söyletebilmesi veya yalnızca yanlış bilgi veya propaganda yayabilmesidir .”
Viyana, Microsoft’un sahip olduğunu iddia ettiği potansiyele sahipse, teknolojide kötüye kullanım için büyük bir potansiyel görüyor. “Güvenlik düzeyindeki finansal hizmetlerin gerçekten kötü niyetli şeyler yapabilen kişiler tarafından kullanılabileceğini hayal etmek zor değil ” dedi.
Jyoti, VALL-E’yi çevreleyen etik kaygıları da görüyor. ” Teknoloji ilerledikçe VALL-E ve benzeri teknolojilerin yarattığı sesler daha inandırıcı hale gelecek” diye açıkladı. “Bu, potansiyel kurban olan gerçek insanların seslerini taklit eden gerçek spam çağrılarına kapı açar.”
“Politikacılar ve diğer tanınmış kişiler de taklit edilebilir ” diye ekledi.
“Bazı bankaların ses şifrelerine izin vermesi gibi güvenlik sorunları olabilir ve bu da kötüye kullanımla ilgili endişeleri artırır. Kötüye kullanımı durdurmak için yapay zeka tarafından üretilen içerik ile yapay zeka algılama yazılımı arasında artan bir silahlanma yarışı bekleyebiliriz.”
Jyoti, ” VALL-E’nin şu anda mevcut olmadığını not etmek önemlidir. Genel olarak SI düzenlemesi çok önemlidir. Microsoft’un VALL-E kullanımını düzenlemek için hangi adımları attığını görmemiz gerekecek, ” diye ekledi Jyoti.
VALL-E halka açık değildir, ancak inceleme için örnekler mevcuttur: https://valle-demo.github.io/
Yazar: Hidayathon Atabaev
OKUYUN: Bing Arama Motoru, ChatGPT ile Google’ı Yener