Нова AI система на Microsoft създава реалистични видеоклипове от изображения

Изследователи от Microsoft са разработили нова AI система, наречена VASA-1, която може да генерира изключително реалистични видеоклипове от едно-единствено изображение и аудиозапис.

The First AI-Generated Video That Looks Super Real

Microsoft Research announced VASA-1.

It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR
— Bindu Reddy (@bindureddy) April 17, 2024

Нашият метод е способен не само да създава движения на устните, които да са прецизно синхронизирани с аудиото, но и да улавя голям набор от нюанси на лицето и естествени движения на главата
– посочват изследователите.

VASA-1 постига този реализъм, като разделя чертите на лицето, 3D позицията на главата и изражението на лицето в отделни сегменти. Това „разделяне“ позволява независим контрол и редактиране на тези аспекти, давайки възможност за фино настройване на крайния резултат.

🚨 Microsoft Research just announced VASA-1.

All it needs is a picture and audio to create these talking videos!

Look at this real-time demo: pic.twitter.com/dmEIWid3XE
— Alvaro Cintas (@dr_cintas) April 18, 2024

По отношение на производителността, VASA-1 генерира видео с разделителна способност от 512×512 пиксела при 45 кадъра в секунда в офлайн режим и може да поддържа до 40 кадъра в секунда в онлайн стрийминг режим.

Може би най-интересното е, че VASA-1 демонстрира способност да работи с изображения и аудио, които са извън обхвата на данните, използвани при обучението. Въпреки че не е специално обучена върху произведения на изкуството, певчески гласове или реч, различна от английската, AI системата успешно генерира видеоклипове, използвайки тези входни данни.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

4. Out-of-distribution generalization – singing audios pic.twitter.com/h7BvTq4vAE
— Min Choi (@minchoi) April 18, 2024

Въпреки впечатляващите възможности на VASA-1, технологията поражда и редица етични опасения, свързани с потенциална злоупотреба. Сред тях са създаването на „дълбоки фалшификати“ (deepfakes) и фалшиви самоличности с цел дезинформация и измами. От Microsoft са наясно с този риск и не възнамеряват да предоставят системата на обществеността, докато не се уверят, че тя ще се използва отговорно.

Нямаме планове да пускаме онлайн демонстрация, API, продукт, допълнителни подробности за внедряване или каквито и да било свързани предложения, докато не сме сигурни, че технологията ще се използва отговорно и в съответствие с подходящите нормативни разпоредби
– споделят от компанията в блог пост по темата.

Важно е да отбележим, че Microsoft не е единствената компания, работеща по подобна система. Само преди малко повече от месец изследователи от Alibaba представиха своята разработка, наречена „EMO“ (съкратено от Emote Portrait Alive). Системата на китайските учени работи по сходен начин и има идентична цел като тази на Microsoft.

It's been a huge day for AI with announcements from Alibaba, Lightricks, Ideogram, Apple, Adobe, OpenAI, and more.

The 7 most important developments that happened:

1. Alibaba researchers unveiled EMO, an AI that adds lip-syncing to videos.pic.twitter.com/QlxdMCZFdN
— Rowan Cheung (@rowancheung) February 29, 2024

Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!

Остави коментар

Gauthier

Gauthier

Нова AI система на Microsoft създава реалистични видеоклипове от изображения

Абонирайте се за нашите седмични бюлетини