След като в началото на месеца ElevenLabs пусна инструмент за генериране на звукови ефекти от текст, днес компанията представи безплатно приложение с отворен код, което автоматично създава аудио за кратки видеоклипове.

Приложението, наречено „Video to Sound Effects“, работи по следния начин: Потребителите трябва да качат видеоклип, който бива анализиран от изкуствения интелект на ElevenLabs. След това инструментът генерира няколко звукови ефекта, подходящи за него. Целият процес отнема около 15 секунди.

Зад кулисите обаче се случват доста неща. Първо, инструментът избира няколко кадъра от дадения видеоклип. След това изпраща тези кадри заедно с текстово описание към GPT-4o на OpenAI, който създава персонализирано текстово указание (prompt). Това указание от своя страна се използва за генерирането на няколко звукови ефекта чрез API на ElevenLabs. Накрая видеото и аудиото се комбинират в един файл, готов за изтегляне, който може да бъде с продължителност до 22 секунди.

*Примерите са генерирани с Gen-3 Alpha на Runway, а аудиото от ElevenLabs.

Разработчиците могат да получат достъп до кода на „Video to Sound Effects“ в GitHub, а всеки, който желае, може да изпробва безплатното онлайн приложение на адрес: videotosoundeffects.com.

Само преди дни DeepMind, лабораторията за изкуствен интелект на Google, представи подобна технология, наречена V2A (Video-to-Audio), която генерира автоматично реалистични звуци, включително музика, звукови ефекти и диалози за видеоклипове без аудио. Но за разлика от инструмента на ElevenLabs, технологията на DeepMind все още не е публично достъпна.

Последвайте ни в социалните мрежи – FacebookInstagramX и LinkedIn!

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

Абонирайте се за нашите седмични бюлетини

Получавайте всяка неделя в 10:00ч последно публикуваните в сайта статии

Бюлетини: