A Meta új AI-modellje, a Movie Gen: forradalom a videó- és hanggenerálásban

boostyourbiz.ai

2024-10-30

A Meta nemrég mutatta be saját, médiumközpontú mesterséges intelligencia modelljét, a Movie Gen-t, amely képes élethű videók és hangklippek generálására. A vállalat több 10 másodperces mintavideót is megosztott, köztük egy úszkáló bébivízilóról készült felvételt, hogy szemléltessék az új technológia képességeit.

A Movie Gen nemcsak szövegalapú videók generálására alkalmas, hanem meglévő videók szerkesztésére is, például objektumok hozzáadására vagy vizuális elemek módosítására. Egy demonstráció során például egy VR-headsetet viselő nő megjelenését átalakították úgy, mintha egy steampunk távcsövet hordana.

A Movie Gen modellel nemcsak vizuális tartalom, hanem hangklippek is generálhatók a videók mellé. A bemutatott példák között szerepelt egy férfi egy vízesés mellett, ahol hallható volt a vízcsobogás és egy szimfónia dallamai, egy sportautó motorjának mély dorombolása és gumiabroncsainak csikorgása, valamint egy kígyó, amely susogva csúszott a dzsungelben izgalmas zenei aláfestéssel.

A Meta részletes kutatási dokumentumban osztott meg információkat a Movie Genről. A Movie Gen Video modell 30 milliárd paraméterrel rendelkezik, míg az Audio modell 13 milliárddal. Összehasonlításképpen, a Llama 3.1 legnagyobb verziója 405 milliárd paramétert tartalmaz. A Movie Gen akár 16 másodperc hosszúságú, nagyfelbontású videók létrehozására is képes, és a Meta állítása szerint jobb minőséget biztosít, mint a konkurens modellek.

Korábban Mark Zuckerberg bemutatta a Meta AI Imagine Me funkcióját, amely lehetővé tette a felhasználók számára, hogy saját képeiket különböző kontextusokba helyezzék. Elképzelhető, hogy ennek a funkciónak a videós változata is megvalósulhat a Movie Gen segítségével.

A Movie Gen kiképzéséhez felhasznált adatok pontos forrásai nem ismertek. A Meta közleménye szerint „licencelt és nyilvánosan elérhető adatkészleteket” alkalmaztak, de az MI-modellek tanításához felhasznált adatok forrásai gyakran vitatottak és ritkán átláthatók. Egyelőre nem tudni, mikor válik a Movie Gen széles körben elérhetővé, de a Meta blogbejegyzése egy „lehetséges jövőbeli megjelenésre” utal. Az OpenAI szintén bejelentette saját MI-videómodelljét, a Sora-t, amely szintén még nem érhető el a nagyközönség számára.

Mivel a Meta közösségi média óriás, elképzelhető, hogy a Movie Gen-t idővel integrálja olyan platformokba, mint a Facebook, Instagram vagy WhatsApp. A Google szeptemberben bejelentette, hogy a YouTube Shorts-ban bevezeti a Veo videómodell egyes funkcióit a következő év során.

Bár a nagy technológiai vállalatok egyelőre nem tették elérhetővé videómodelleiket, kisebb startupok, mint a Runway és a Pika, már lehetőséget biztosítanak a mesterséges intelligenciával generált videók tesztelésére.

boostyourbiz.ai

UI/UX Instructor