Fashion

Google Veo, ein ernsthafter Schritt in Richtung KI-generierter Videos, debütiert auf der Google I/O 2024

Mashi. Nordeuropa Sunday, May 19 2024

Google zielt mit Veo auf OpenAI's Sora ab, ein KI-Modell, das anhand eines Text-Prompts 1080p-Videoclips von etwa einer Minute Länge erstellen kann.

Am Dienstag auf der Entwicklerkonferenz Google I/O 2024 vorgestellt, kann Veo verschiedene visuelle und filmische Stile erfassen, darunter Aufnahmen von Landschaften und Zeitraffern, und Bearbeitungen und Anpassungen an bereits generiertem Material vornehmen.

„Wir erkunden Funktionen wie Storyboard und die Generierung längerer Szenen, um zu sehen, was Veo kann“, sagte Demis Hassabis, Leiter des AI-Forschungslabors DeepMind von Google, während eines virtuellen Runden-Tisches gegenüber Reportern. „Wir haben unglaubliche Fortschritte im Bereich Video gemacht.“

Veo baut auf Googles vorläufiger kommerzieller Arbeit in der Videogenerierung auf, die im April vorgestellt wurde und Googles Imagen 2-Familie von Bildgenerierenden Modellen einsetzte, um schleifenende Videoclips zu erstellen.

Aber im Gegensatz zum Imagen 2-basierten Tool, das nur niedrig auflösende, wenige Sekunden lange Videos erstellen konnte, scheint Veo wettbewerbsfähig mit den führenden Videogenerierungsmodellen von heute zu sein - nicht nur Sora, sondern auch Modellen von Start-ups wie Pika, Runway und Irreverent Labs.

In einem Briefing zeigte Douglas Eck, der Forschungsbemühungen bei DeepMind in Generative Media leitet, mir einige ausgewählte Beispiele, was Veo kann. Eines davon - eine Luftaufnahme eines belebten Strandes - zeigte laut Eck die Stärken von Veo gegenüber konkurrierenden Videomodellen.

„Die Details der Schwimmer am Strand erwiesen sich sowohl für Bild- als auch für Videogenerierungsmodelle als schwierig - so viele sich bewegende Charaktere“, sagte er. „Wenn man genau hinsieht, sieht der Wellengang ziemlich gut aus. Und das Gefühl des Wortes 'belebt' der Vorgabe wird mit all den Menschen - dem lebhaften Strand voller Sonnenbader - eingefangen.“

Veo wurde auf viel Material trainiert. Das ist im Allgemeinen so bei generativen KI-Modellen: Mit Beispiel um Beispiel eines bestimmten Datentyps gefüttert, erkennen die Modelle Muster in den Daten, die es ihnen ermöglichen, neue Daten zu generieren - in Veos Fall Videos.

Woher stammt das Material, um Veo zu trainieren? Eck wollte nicht genau sagen, aber er gab zu, dass einige möglicherweise von Googles eigenem YouTube stammen.

„Google-Modelle könnten auf bestimmten YouTube-Inhalten trainiert sein, aber immer im Einklang mit unserem Abkommen mit den YouTube-Erstellern“, sagte er.

Der „Abkommen“-Teil mag technisch gesehen stimmen. Aber es ist auch wahr, dass die Ersteller angesichts der Network-Effekte von YouTube nicht viel Auswahl haben, als nach Googles Regeln zu spielen, wenn sie auf die größtmögliche audience hoffen.

Ein Bericht der New York Times im April enthüllte, dass Google im letzten Jahr seine Nutzungsbedingungen erweitert hat, um dem Unternehmen zu ermöglichen, mehr Daten für das Training seiner KI-Modelle zu nutzen. Unter den alten Nutzungsbedingungen war es nicht klar, ob Google YouTube-Daten zur Entwicklung von Produkten außerhalb der Videoplattform nutzen konnte. Nicht so unter den neuen Bedingungen, die die Zügel deutlich lockerer lassen.

Google ist bei weitem nicht das einzige Technologieunternehmen, das riesige Mengen an Nutzerdaten nutzt, um firmeninterne Modelle zu trainieren. (Siehe: Meta.) Doch was einige kreative Personen enttäuschen dürfte, ist Ecks Behauptung, dass Google ethisch gesehen den „Goldstandard“ setzt.

„Die Lösung für diese Herausforderung [Trainingsdaten] wird gefunden, wenn man alle Beteiligten zusammenbringt, um herauszufinden, was die nächsten Schritte sind“, sagte er. „Bis wir diese Schritte mit den Beteiligten machen - wir sprechen über die Filmindustrie, die Musikindustrie, die Künstler selbst -, werden wir uns nicht schnell bewegen.“

Dennoch hat Google Veo bereits ausgewählten Erstellern zur Verfügung gestellt, darunter Donald Glover (alias Childish Gambino) und seine Kreativagentur Gilga.

Eck wies darauf hin, dass Google Tools bereitstellt, um Webmastern zu ermöglichen, zu verhindern, dass Googles Bots Trainingdaten von ihren Websites abgreifen. Aber die Einstellungen gelten nicht für YouTube. Und anders als einige seiner Rivalen bietet Google keine Mechanismen an, mit denen Ersteller ihre Arbeit nach dem Abgreifen aus den Trainingsdaten entfernen können.

Ich fragte Eck auch nach „Regurgitation“, was im Kontext der generativen KI bedeutet, dass ein Modell eine exakte Kopie eines Trainingsbeispiels generiert. Tools wie Midjourney haben sich als in der Lage erwiesen, exakte Standbilder aus Filmen wie „Dune“, „Avengers“ und „Star Wars“ zu spucken, wenn ein Zeitstempel angegeben wird - was eine mögliche rechtliche Stolperfalle für Benutzer darstellt. OpenAI soll angeblich so weit gegangen sein, Marken und Namen von Erstellern in Vorgaben für Sora zu blockieren, um Urheberrechtsstreitigkeiten abzulenken.

Also welche Schritte hat Google unternommen, um das Risiko von Regurgitation mit Veo zu mindern? Eck hatte keine Antwort, außer zu sagen, dass das Forschungsteam Filter für gewalttätige und explizite Inhalte implementiert hat (also keinen Porno) und die SynthID-Technologie von DeepMind verwendet, um Videos von Veo als KI-generiert zu kennzeichnen.

„Wir werden es uns zur Gewohnheit machen - für etwas so Großes wie das Veo-Modell - es allmählich einer kleinen Gruppe von Interessengruppen zur Verfügung zu stellen, mit denen wir sehr eng zusammenarbeiten können, um die Auswirkungen des Modells zu verstehen, und erst dann auf eine größere Gruppe auszudehnen“, sagte er.

Eck hatte mehr technische Details zum Modell zu teilen.

Eck beschrieb Veo als „ziemlich kontrollierbar“ im Sinne dessen, dass das Modell Kamerabewegungen und VFX vernünftig gut von Vorgaben versteht (denken Sie an Beschreibungen wie „schwenken“, „zoomen“ und „Explosion“). Und wie Sora hat Veo auch ein gewisses Verständnis für Physik - Dinge wie Flüssigkeitsdynamik und Schwerkraft -, die zur Realität der von ihm generierten Videos beitragen.

Veo unterstützt auch maskierte Bearbeitung für Änderungen an bestimmten Bereichen eines Videos und kann Videos aus einem Standbild generieren, ähnlich generativen Modellen wie Stability AI's Stable Video. Vielleicht am interessantesten ist, dass Veo bei einer Sequenz von Vorgaben, die zusammen eine Geschichte erzählen, längere Videos generieren kann - Videos, die länger als eine Minute sind.

Dies soll nicht bedeuten, dass Veo perfekt ist. Reflecting the limitations of today’s generative AI, objects in Veo’s videos disappear and reappear without much explanation or consistency. And Veo gets its physics wrong often — for example, cars will inexplicably, impossibly reverse on a dime.

Das ist der Grund, warum Veo vorerst auf einer Warteliste auf Google Labs, dem Portal des Unternehmens für experimentelle Technologien, verbleiben wird, innerhalb eines neuen Frontend für die generative KI-Videoerstellung und -bearbeitung namens VideoFX. Mit der Zeit will Google einige der Fähigkeiten des Modells auch in YouTube Shorts und anderen Produkten integrieren.

„Das ist sehr viel Arbeit im Gange, sehr experimentell ... hier ist noch viel mehr unerledigt als erledigt“, sagte Eck. „Aber ich denke, das sind sozusagen die Rohstoffe für etwas wirklich Großartiges im Bereich Filmemachen.“

Wir starten einen AI-Newsletter! Melden Sie sich hier an, um ihn ab dem 5. Juni in Ihren Posteingängen zu erhalten.