След като OpenAI пусна Sora и предизвика истински фурор в интернет, китайският гигант Alibaba полага огромни усилия, за да настигне американските си конкуренти.
Изследователи на Alibaba са разработили нова система за изкуствен интелект, наречена „EMO“, съкратено от Emote Portrait Alive, която може да оживи портретни снимка и да генерира видеоклипове.
За разлика от традиционните методи, които разчитат на 3D модели на лицето, EMO използва директен подход за синтез на аудио-видео. Системата е в състояние да създава плавни и изразителни движения на лицето и пози на главата, които точно съответстват на нюансите на предоставения аудиозапис. Моделът може да генерира видеоклипове с различна продължителност в зависимост от входящото аудио.
It's been a huge day for AI with announcements from Alibaba, Lightricks, Ideogram, Apple, Adobe, OpenAI, and more.
— Rowan Cheung (@rowancheung) February 29, 2024
The 7 most important developments that happened:
1. Alibaba researchers unveiled EMO, an AI that adds lip-syncing to videos.pic.twitter.com/QlxdMCZFdN
От техническа гледна точка учените от Alibaba споделят, че EMO използва дифузионен модел, наречен Audio2Video. Те са обучили системата върху голям набор от данни, включващ над 250 часа видеоклипове, речи, филми, телевизионни предавания и певчески изпълнения.
Експерименталните резултати показват, че EMO е в състояние да създава не само убедителни видеоклипове с говорене, но и такива с пеене в различни стилове, като значително превъзхожда съществуващите най-съвременни методи по отношение на изразителност и реализъм
– се посочва в статията на проекта.
First it was OpenAI Sora, then Pika and now Alibaba has released EMO (Emote Portrait Alive)
— The AI Colony (@TheAIColony) February 29, 2024
This tool can make a single image rap, talk, and sijhy from any audio file expressively!
10 amazing examples: 🧵👇
1. Audrey Hepburn singing Ed Sheeran song Perfect pic.twitter.com/NgkNX75C4o
Sora by OpenAI is insane, but wait until you see this…
— There's An AI For That (@theresanaiforit) February 29, 2024
Here are 8 examples of the new EMO by Alibaba that'll truly blow your mind (turn your volume up):
1. AI Lady from Sora + Dua Lipa – Don't Start Now pic.twitter.com/sJFrb6ROt3
Освен това изследователите са провели проучване сред потребители, което е установило, че видеоклиповете, генерирани от EMO, са по-естествени и емоционални от тези, създадени от други системи.
Въпреки това разработването на подобни напреднали AI системи поражда етични опасения във връзка с потенциална злоупотреба, като например създаване на фалшиви самоличности или разпространение на дезинформация. Изследователският екип, който стои зад ЕМО, е наясно с тези проблеми и работи върху разработването на методи за откриване на синтетични видеоклипове.
AI Can Now Bring Any Portrait to Life!
— Unwind AI (@_unwind_ai) February 29, 2024
EMO by Alibaba lets you create videos of characters speaking/ singing from a single portrait image.
– Only a single image & audio reqd
– Works with songs, speeches, in any language
– Perfect sync of facial expressions & head movements pic.twitter.com/Sb6kw6GU5V
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!