OpenAI, ses klonlama için Voice Engine adı ile çok güçlü bir yapay zeka modeli geliştirdi. Öte yandan, bu model o kadar iyi performans gösteriyor ki şirket modelin kötüye kullanılması konusunda devasa bir potansiyelden korkuyor. Bu da şirketin modeli halka açma konusunda tereddüde düşürdü ve şirket bunun yerine yalnızca Voice Engine adı verilen bir modelin yeteneklerini gösteren bir ön izleme sundu.
Yapay zeka tabanlı ses klonlama teknolojisinin temelleri çok basittir. Model yalnızca iki orijinal sesin bir ses örneğine ve sentetik sesin okuması gereken bir metine ihtiyaç duyuyor. Araç yeterli sayıda örnekle beslendiğinde ise sonuç gerçekten hayrete düşünüyor. Halihazırda halka açık olan diğer modellerden farklı olarak Voice Engine, orijinal konuşmacıdan sadece 15 saniyelik sese ihtiyaç duyuyor. Çok sınırlı girdiye rağmen ortaya çıkan ses ifadeleri inanılmaz derecede gerçekçi. Güçlü araç, özellikle dezenformasyon kampanyalarının bir parçası olarak kötü niyetli aktörlerin elinde güçlü bir silaha dönüşebilir.
Voice Engine ilk olarak 2022 yılının sonlarında geliştirildi. O zamandan beri, metinden konuşmaya API’de bulunan önceden ayarlanmış seslerin yanı sıra ChatGPT Voice ve Read Aloud’u desteklemek için kullanıldı. Geçen yılın sonlarında OpenAI, ses klonlama yeteneklerini küçük bir grup güvenilir ortakla özel olarak test etmeye başladı. Şirket, bu grubun geliştirdiği uygulamalardan etkilendiğini söylüyor.
Bu testlerin bir nedeni de insanların ve çeşitli endüstrilerin bundan nasıl yararlanabileceğini bulmak. Diğer neden ise kötüye kullanım potansiyelini belirlemek ve hangi adımların atılacağına karar vermek. OpenAI, bu teknolojinin daha geniş çapta piyasaya sürülmesinin, kötüye kullanımını önleyecek politikalar ve karşı önlemlerle birlikte gitmesi gerektiğini düşünüyor.
OpenAI modelinin halka açık tek ses klonlama aracı olmayacağını belirtmekte fayda var. Şu anda en popüler olanı ise ElevenLabs ancak yeterli ses örneği olsa bile sonuçlar her zaman ikna edici olmuyor. Voice Engine ise hem kullanım kolaylığı hem de klonlanan sesin sonuçta ortaya çıkan kalitesi açısından ileriye doğru büyük bir adım olacak.