Изследователи от Microsoft са разработили нова AI система, наречена VASA-1, която може да генерира изключително реалистични видеоклипове от едно-единствено изображение и аудиозапис.
The First AI-Generated Video That Looks Super Real
— Bindu Reddy (@bindureddy) April 17, 2024
Microsoft Research announced VASA-1.
It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR
Нашият метод е способен не само да създава движения на устните, които да са прецизно синхронизирани с аудиото, но и да улавя голям набор от нюанси на лицето и естествени движения на главата
– посочват изследователите.
VASA-1 постига този реализъм, като разделя чертите на лицето, 3D позицията на главата и изражението на лицето в отделни сегменти. Това „разделяне“ позволява независим контрол и редактиране на тези аспекти, давайки възможност за фино настройване на крайния резултат.
🚨 Microsoft Research just announced VASA-1.
— Alvaro Cintas (@dr_cintas) April 18, 2024
All it needs is a picture and audio to create these talking videos!
Look at this real-time demo: pic.twitter.com/dmEIWid3XE
По отношение на производителността, VASA-1 генерира видео с разделителна способност от 512×512 пиксела при 45 кадъра в секунда в офлайн режим и може да поддържа до 40 кадъра в секунда в онлайн стрийминг режим.
Може би най-интересното е, че VASA-1 демонстрира способност да работи с изображения и аудио, които са извън обхвата на данните, използвани при обучението. Въпреки че не е специално обучена върху произведения на изкуството, певчески гласове или реч, различна от английската, AI системата успешно генерира видеоклипове, използвайки тези входни данни.
Microsoft just dropped VASA-1.
— Min Choi (@minchoi) April 18, 2024
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
4. Out-of-distribution generalization – singing audios pic.twitter.com/h7BvTq4vAE
— Min Choi (@minchoi) April 18, 2024
Въпреки впечатляващите възможности на VASA-1, технологията поражда и редица етични опасения, свързани с потенциална злоупотреба. Сред тях са създаването на „дълбоки фалшификати“ (deepfakes) и фалшиви самоличности с цел дезинформация и измами. От Microsoft са наясно с този риск и не възнамеряват да предоставят системата на обществеността, докато не се уверят, че тя ще се използва отговорно.
Нямаме планове да пускаме онлайн демонстрация, API, продукт, допълнителни подробности за внедряване или каквито и да било свързани предложения, докато не сме сигурни, че технологията ще се използва отговорно и в съответствие с подходящите нормативни разпоредби
– споделят от компанията в блог пост по темата.
Важно е да отбележим, че Microsoft не е единствената компания, работеща по подобна система. Само преди малко повече от месец изследователи от Alibaba представиха своята разработка, наречена „EMO“ (съкратено от Emote Portrait Alive). Системата на китайските учени работи по сходен начин и има идентична цел като тази на Microsoft.
It's been a huge day for AI with announcements from Alibaba, Lightricks, Ideogram, Apple, Adobe, OpenAI, and more.
— Rowan Cheung (@rowancheung) February 29, 2024
The 7 most important developments that happened:
1. Alibaba researchers unveiled EMO, an AI that adds lip-syncing to videos.pic.twitter.com/QlxdMCZFdN
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!