Екип от изследователи от Тексаския университет в Остин и компания, наречена Rembrand, представиха „Voice Craft“ – нов AI модел за клониране на глас.
Voice Craft се отличава със способността си да вмъква, променя или премахва думи от изреченията в предварително записана реч. Това отваря нови възможности за създателите на съдържание, режисьорите, разработчиците на игри и други, които често трябва да правят промени в записаните диалози. Voice Craft елиминира тази необходимост, като дава възможност за прецизно редактиране на естествената реч директно в записа.
Announcing 𝐕𝐨𝐢𝐜𝐞𝐂𝐫𝐚𝐟𝐭🪄
— Puyuan Peng (@PuyuanPeng) March 21, 2024
SotA for both speech editing and zero-shot text-to-speech, Outperforming VALL-E, XTTS-v2, etc.
VoiceCraft works on in-the-wild data such as movies, random videos and podcasts
We fully open source it at https://t.co/Fpqg9D4nUB pic.twitter.com/zXwRdkNFrk
В допълнение към редактирането на реч, Voice Craft позволява изключително ефективен гласов синтез, дори без предварително обучен целеви гласов модел – техника, известна като zero-shot TTS. Забележително е, че инструментът изисква само трисекунден запис, за да клонира даден глас, което го прави изключително ефективен, но и потенциално опасен.
Само преди седмица OpenAI представи своя Voice Engine – инструмент, който може да генерира реалистична човешка реч само от 15-секунден аудио запис на нечий глас. След като гласът бъде клониран въз основа на този запис, моделът може да генерира аудио, което да изговаря всеки въведен текст, дори на различен език, като запазва акцента на говорещия.
OpenAI твърди, че е разработила технологията в края на 2022 г., но не я е пуснала за широка употреба поради сериозни рискове от злоупотреби и измами, включително създаването на т.нар. „дълбоки фалшификати“ (deepfakes). Компанията признава, че клонирането на глас крие сериозни опасности, които са особено актуални тази година, поради големия брой избори по целия свят.
OpenAI заяви, че „работи с американски и международни партньори от правителствения сектор, медиите, развлекателната индустрия, образованието, гражданското общество и други сфери“, за да получи обратна връзка и да вземе информирано решение относно потенциалното разширяване на достъпа до технологията.
Важно е хората по света да разберат накъде върви технологията, независимо дали в крайна сметка ще я внедрим широко или не
– предупреждават от компанията в блог пост по темата.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!