Voicebox, продукт на компанията Meta (позната ни с Facebook), представлява иновация в областта на генеративните модели за изкуствен интелект (AI). Той се отличава с уникалната си способност да създава реч с изключителна точност, без да се изисква предварително специализирано обучение. Вместо това, моделът се обучава директно от необработени аудио данни и прилежащите към тях транскрипции, което му позволява да модифицира всяка част от даден аудио пример, предоставяйки несравнима гъвкавост и разнообразие.
За разработката на Voicebox, екипът на Meta приложи новаторски метод, наречен „Flow Matching„. Благодарение на него, моделът може да генерира реч на шест различни езика: английски, френски, испански, немски, полски и португалски. Но това не е всичко – Voicebox не само създава аудио от висок клас и ефективно премахва нежелани шумове, но и може да редактира съществуващи аудио записи, като запазва оригиналния им стил и съдържание.
С обучение базирано на повече от 50 000 часа записана реч и транскрипции от аудиокниги на шестте езика, Voicebox демонстрира впечатляваща способност да предсказва конкретен сегмент от реч, когато е оборудван с контекстуална информация и транскрипция на съответния сегмент.
Характеристики на Voicebox
Voicebox може да изпълнява множество задачи, включително синтез на текст към реч в контекст, редактиране на реч и намаляване на шума, трансфер на стил между различни езици и разнообразно семплиране на реч.
- Text-to-speech synthesis in context: Използвайки амо двусекундна аудио проба, Voicebox може да съответства на аудио стила и да го използва за генериране на текст към реч.
- Speech editing and noise reduction: Voicebox може да пресъздаде част от речта, която е прекъсната от шум или да замени грешно изговорени думи, без да е необходимо да се презаписва цялата реч. Например, ако сегмент от речта е прекъснат от шум, можете да го изрежете и да инструктирате AI да го възстанови.
- Style transfer across different languages: Моделът може да произвежда реч от текст на всеки от шестте поддържани езика, дори когато пробата на речта и текстът са на различни езици. Тази възможност би могла да се използва в бъдеще, за да помогне на хората да комуникират по естествен и автентичен начин, дори ако не говорят едни и същи езици.
Въпреки вълнуващите възможности, които Voicebox предоставя, Meta AI реши да не публикува модела или кода за обществено ползване, с цел да предотврати потенциалните рискове от злоупотреба.
Поради поверителността на данните, Meta AI се ангажира да се справи със свързаните с употребата на Voicebox потенциални рискове. Компанията е разработила високоефективен класификатор, който може да различава автентична реч от аудио, генерирано от AI, и по този начин гарантира отговорната употреба на тази технология.
Смятаме, че с Voicebox настъпва нова ера в генеративния AI за реч. Осъзнаваме, че, както всяка нова мощна технология, и тази носи потенциал за злоупотреба и непредвидени вреди. Затова сме посветени да бъдем отворени относно нашата работа, за да позволим на научната общност да я развива и да продължава важните дискусии относно отговорното развитие на AI
– Meta AI.
За повече инструменти, базирани на изкуствен интелект (AI), препоръчваме да прегледате нашата секция „Инструменти“.
Целта на AIBulgaria.com е да предоставя актуална и стойностна информация от света на изкуствения интелект (AI). Последвайте ни в социалните мрежи – Facebook, Twitter и LinkedIn. Също така, може да се присъедините към нашия Discord сървър!