След като в началото на месеца ElevenLabs пусна инструмент за генериране на звукови ефекти от текст, днес компанията представи безплатно приложение с отворен код, което автоматично създава аудио за кратки видеоклипове.
Приложението, наречено „Video to Sound Effects“, работи по следния начин: Потребителите трябва да качат видеоклип, който бива анализиран от изкуствения интелект на ElevenLabs. След това инструментът генерира няколко звукови ефекта, подходящи за него. Целият процес отнема около 15 секунди.
We are excited to introduce the Text to Sound Effects API.
— ElevenLabs (@elevenlabsio) June 17, 2024
To showcase it – we've built the first Video to Sounds Effects app. This app is available for free online and fully open-source. pic.twitter.com/8aalo8GCSo
Зад кулисите обаче се случват доста неща. Първо, инструментът избира няколко кадъра от дадения видеоклип. След това изпраща тези кадри заедно с текстово описание към GPT-4o на OpenAI, който създава персонализирано текстово указание (prompt). Това указание от своя страна се използва за генерирането на няколко звукови ефекта чрез API на ElevenLabs. Накрая видеото и аудиото се комбинират в един файл, готов за изтегляне, който може да бъде с продължителност до 22 секунди.
*Примерите са генерирани с Gen-3 Alpha на Runway, а аудиото от ElevenLabs.
Разработчиците могат да получат достъп до кода на „Video to Sound Effects“ в GitHub, а всеки, който желае, може да изпробва безплатното онлайн приложение на адрес: videotosoundeffects.com.
Само преди дни DeepMind, лабораторията за изкуствен интелект на Google, представи подобна технология, наречена V2A (Video-to-Audio), която генерира автоматично реалистични звуци, включително музика, звукови ефекти и диалози за видеоклипове без аудио. Но за разлика от инструмента на ElevenLabs, технологията на DeepMind все още не е публично достъпна.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!