Internet

Ehemaliger Leiter der Snap AI startet Higgsfield, um sich mit OpenAI's Sora Video Generator auseinanderzusetzen

OpenAI hat die Tech-Welt vor ein paar Monaten mit einem generativen KI-Modell, Sora, das Szenenbeschreibungen in originale Videos umwandelt, ohne dass Kameras oder Filmcrews erforderlich sind, gefesselt. Bisher war Sora jedoch fest verschlossen, und das Unternehmen scheint es auf gut finanzierte Kreative wie Hollywood-Regisseure auszurichten - nicht unbedingt auf Hobbyisten oder kleine Vermarkter.

Alex Mashrabov, der ehemalige Leiter der generativen KI bei Snap, erkannte eine Gelegenheit. Also startete er Higgsfield AI, eine KI-gestützte Videoerstellungs- und Bearbeitungsplattform, die für maßgeschneiderte, personalisierte Anwendungen konzipiert wurde.

Getrieben von einem individuellen Text-zu-Video-Modell kann Higgsfields erste App, Diffuse, Videos von Grund auf generieren oder ein Selfie aufnehmen und einen Clip erstellen, der die Person zeigt.

„Unsere Zielgruppe sind Schöpfer aller Art“, sagte Mashrabov im Gespräch mit TechCrunch. „Von normalen Benutzern, die mit ihren Freunden Spaßinhalte erstellen möchten, bis hin zu sozialen Inhalten, die versuchen, ein neues Inhaltsformat auszuprobieren, und zu Social-Media-Vermarktern, die möchten, dass ihre Marke auffällt.“

Mashrabov kam über AI Factory, sein früheres Start-up, zu Snap, das Snap 2020 für 166 Millionen Dollar erwarb. Bei Snap half Mashrabov, Produkte wie AR-Effekte und Filter für Snapchat zu entwickeln, darunter Cameos sowie den umstrittenen MyAI-Chabot von Snapchat.

Higgsfield - das Mashrabov vor einigen Monaten zusammen mit Yerzat Dulat, einem auf generative Videos spezialisierten KI-Forscher, startete - bietet eine kuratierte Auswahl an vorab generierten Clips, ein Tool zum Hochladen von Referenzmedien (z. B. Bildern und Videos) und einen Editor für Vorgaben, mit dem Benutzer die Charaktere, Aktionen und Szenen beschreiben können, die sie darstellen möchten. Mit Diffuse können Benutzer sich direkt in eine KI-generierte Szene einfügen oder ihr digitales Ähnlichkeiten dazu bringen, Dinge - wie Tanzbewegungen - nachzuahmen, die in anderen Videos festgehalten wurden.

„Unser Modell unterstützt äußerst realistische Bewegungen und Ausdrücke“, sagte Mashrabov. „Wir sind Pioniere in der Entwicklung von „Weltmodellen“ für Verbraucher, was es uns ermöglicht, erstklassige Videogenerierung und -bearbeitung mit einem hohen Maß an Kontrolle aufzubauen.“

Higgsfield ist nicht das einzige generative Videostartup, das sich mit OpenAI anlegt. Runway war eines der ersten auf dem Markt, und seine Tools verbessern sich weiterhin. Es gibt auch Haiper, das die Unterstützung von zwei DeepMind-Alumni und über 13 Millionen Dollar Risikokapital hat.

Mashrabov argumentiert, dass sich Diffuse durch seine mobilorientierte, sozialausgerichtete Vermarktungsstrategie abheben wird.

„Indem wir iOS- und Android-Apps gegenüber Desktop-Workflows priorisieren, ermöglichen wir es Schöpfern, überzeugende Inhalte für soziale Medien jederzeit und überall zu erstellen“, sagte Mashrabov. „Tatsächlich können wir durch den Aufbau auf Mobilgeräten eine einfache Bedienung und benutzerfreundliche Funktionen von Anfang an priorisieren.“

Higgsfield arbeitet auch schlank. Mashrabov sagt, dass die generativen Modelle, die der Plattform zugrunde liegen, von einem 16-köpfigen Team in weniger als neun Monaten entwickelt wurden und auf einem Verbund von 32 GPUs trainiert wurden (32 GPUs mögen viel klingen, aber im Vergleich zu den Zehntausenden, die OpenAI verwendet, ist es nicht wirklich). Higgsfield hat bisher nur 8 Millionen Dollar aufgebracht, der Großteil stammt aus einer kürzlich abgeschlossenen Seed-Funding-Tranche, angeführt von Menlo Ventures.

Um den Konkurrenten einen Schritt voraus zu sein, plant Higgsfield, das Seed-Geld für den Aufbau eines verbesserten Videobearbeiters einzusetzen, der es Benutzern ermöglicht, Charaktere und Objekte in Videos zu modifizieren, und für die Schulung leistungsstärkerer Videogenerierungsmodelle speziell für den Einsatz in sozialen Medien. Tatsächlich sieht Mashrabov soziale Medien - und Social Media Marketing - als Higgsfields Haupt-Geldverdienst-Nische.

Während Diffuse derzeit kostenlos genutzt werden kann, sieht Mashrabov eine Zukunft, in der Vermarkter für Premiumfunktionen oder für Mengen- oder Großkampagnen eine Gebühr oder ein Abonnement zahlen.

„Wir glauben, dass Higgsfield ein unglaubliches Maß an Realismus und Nutzungsmöglichkeiten für die Inhaltsproduktion für Social-Media-Vermarkter erschließt“, sagte er. „Wir hören ständig von CMOs und Kreativdirektoren, dass sie die Budgets für die Inhaltsproduktion optimieren und die Zeiten verkürzen müssen, während sie gleichzeitig wirkungsvolle Inhalte liefern. Daher glauben wir, dass videogenerative KI-Lösungen eine Kernlösung dabei sind, ihnen dabei zu helfen, dies zu erreichen.“

Natürlich ist Higgsfield nicht immun gegen die allgemeinen Herausforderungen, denen sich generative KI-Startups gegenübersehen.

Es ist bekannt, dass generative KI-Modelle wie die, die Diffuse antreiben, Trainingsdaten „wiederkäuen“ können. Warum ist das problematisch? Nun, wenn die Modelle ohne Genehmigung oder eine Art von Lizenzvereinbarung basierend auf urheberrechtlich geschützten Inhalten trainiert wurden, könnten die Benutzer dieser Modelle unwissentlich ein urheberrechtsverletzendes Werk erzeugen - was sie rechtlichen Schritten aussetzen würde.

Mashrabov wollte die Quelle der Trainingsdaten von Higgsfield nicht offenlegen (außer zu sagen, dass sie aus „mehreren öffentlich verfügbaren“ Quellen stammen), und wollte auch nicht sagen, ob Higgsfield Benutzerdaten speichern würde, um zukünftige Modelle zu trainieren, was bei einigen Geschäftskunden nicht gut ankommt. Er bemerkte jedoch, dass Diffuse-Benutzer jederzeit über die App die Löschung ihrer Daten anfordern können.

Digitale „Klon“-Plattformen wie Higgsfield sind auch anfällig für Missbrauch, wie die rasante Verbreitung von Deepfakes in sozialen Medien in den letzten Monaten gezeigt hat.

In ähnlicher Weise könnte es durch Higgsfield einfacher werden, Inhalte von Schöpfern zu stehlen. Man müsste beispielsweise nur ein Video von der Choreografie einer Person hochladen, um ein Video von sich selbst zu generieren, das dieselbe Choreografie ausführt.

Ich fragte Mashrabov, welche Schutzmaßnahmen oder Sicherungen Higgsfield verwendet, um Missbrauch zu verhindern, und - obwohl er nicht ins Detail gehen wollte - behauptete er, dass die Plattform eine Mischung aus automatisierter und manueller Moderation einsetzt.

„Wir haben beschlossen, das Produkt schrittweise einzuführen und zunächst in ausgewählten Märkten zu testen, um zu überwachen, wo ein Missbrauchspotenzial besteht, und das Produkt bei Bedarf weiterzuentwickeln“, fügte Mashrabov hinzu.

Wir werden sehen müssen, wie gut das in der Praxis funktioniert.

Related Articles

Back to top button Back to top button