Tech

KI-Trainingsdaten haben einen Preis, den nur Big Tech sich leisten kann

Mashi. Nordeuropa Monday, June 10 2024

Daten sind das Herzstück moderner KI-Systeme, aber sie werden immer teurer, sodass sie für alle außer den wohlhabendsten Tech-Unternehmen unerreichbar sind.

Letztes Jahr verfasste James Betker, ein Forscher bei OpenAI, einen Beitrag auf seinem persönlichen Blog über die Art von generativen KI-Modellen und die Datensätze, auf denen sie trainiert werden. Betker behauptete, dass Trainingsdaten - nicht das Design, die Architektur oder eine andere Eigenschaft eines Modells - der Schlüssel zu immer raffinierteren, leistungsfähigen KI-Systemen seien.

"Wenn ein Modell lange genug auf demselben Datensatz trainiert wird, konvergiert so ziemlich jedes Modell zum selben Punkt", schrieb Betker.

Hat Betker recht? Ist Schulungsdaten der größte Faktor dafür, was ein Modell tun kann, sei es eine Frage beantworten, menschliche Hände zeichnen oder eine realistische Stadtlandschaft generieren?

Es ist durchaus plausibel.

Statistische Maschinen

Generative KI-Systeme sind im Grunde probabilistische Modelle - ein riesiger Haufen Statistiken. Sie raten basierend auf einer Vielzahl von Beispielen, welche Daten an welcher Stelle am plausibelsten erscheinen (z.B. das Wort "gehe" vor "zum Markt" im Satz "Ich gehe zum Markt"). Es scheint daher naheliegend zu sein, dass je mehr Beispiele ein Modell hat, desto besser die Leistung von Modellen ist, die auf diesen Beispielen trainiert sind.

"Es scheint, als kämen die Leistungssteigerungen von Daten", sagte Kyle Lo, leitender angewandter Forschungswissenschaftler am Allen Institute for AI (AI2), einer KI-Forschungsorganisation, zu TechCrunch, "zumindest wenn Sie einmal eine stabile Trainingsumgebung haben."

Lo gab das Beispiel von Metas Llama 3, einem Text-Generierungsmodell, das in diesem Jahr veröffentlicht wurde und trotz einer architektonisch sehr ähnlichen Struktur AI2s eigenes OLMo-Modell übertrifft. Llama 3 wurde auf wesentlich mehr Daten trainiert als OLMo, was Lo zufolge dessen Überlegenheit in vielen beliebten KI-Benchmarks erklärt.

(Ich möchte hier darauf hinweisen, dass die Benchmarks, die in der KI-Branche heute weit verbreitet sind, nicht unbedingt das beste Maß für die Leistung eines Modells sind, aber angesichts qualitativer Tests wie unseren eigenen, sind sie eine der wenigen Messungen, auf die wir zurückgreifen können.)

Das soll nicht bedeuten, dass ein Training auf exponentiell größeren Datensätzen einen exponentially besseren Modellen garantiert. Modelle funktionieren nach dem Prinzip "Müll rein, Müll raus", so Lo, und daher sind Datenaufbereitung und -qualität von großer Bedeutung, vielleicht sogar mehr als die reine Menge.

"Es ist möglich, dass ein kleines Modell mit sorgfältig gestalteten Daten ein großes Modell übertrifft", fügte er hinzu. "Zum Beispiel ist Falcon 180B, ein großes Modell, auf dem LMSYS-Benchmark auf dem 63. Platz, während Llama 2 13B, ein viel kleineres Modell, auf dem 56. Platz steht."

In einem Interview mit TechCrunch im Oktober letzten Jahres sagte der OpenAI-Forscher Gabriel Goh, dass hochwertige Annotationen enorm zu der verbesserten Bildqualität in DALL-E 3, OpenAIs Text-zu-Bild-Modell, im Vergleich zu seinem Vorgänger DALL-E 2 beigetragen haben. "Ich denke, dies ist die Hauptquelle der Verbesserungen", sagte er. "Die Textannotationen sind viel besser als sie waren [mit DALL-E 2] - es ist nicht einmal vergleichbar."

Viele KI-Modelle, einschließlich DALL-E 3 und DALL-E 2, werden trainiert, indem menschliche Annotatoren Daten kennzeichnen, sodass ein Modell lernen kann, diese Labels mit anderen beobachteten Merkmalen dieser Daten zu verknüpfen. Ein Modell, das mit vielen Katzenbildern gefüttert wird und Anmerkungen zu jeder Rasse erhält, wird schließlich "lernen", Begriffe wie Bobtail und Kurzhaar mit ihren charakteristischen visuellen Merkmalen zu verknüpfen.

Schlechtes Verhalten

Experten wie Lo befürchten, dass der zunehmende Schwerpunkt auf großen, hochwertigen Trainingsdatensätzen die KI-Entwicklung in die Hände weniger Akteure mit Milliardenbudgets zentralisieren wird, die es sich leisten können, diese Sets zu erwerben. Große Innovationen in synthetischen Daten oder grundlegenden Architekturen könnten den Status quo stören, stehen aber offenbar nicht unmittelbar bevor.

"Insgesamt haben Organisationen, die potenziell nützliche Inhalte für die KI-Entwicklung verwalten, Anreize, ihre Materialien zu versperren", sagte Lo. "Und da der Zugang zu Daten eingeschränkt wird, segnen wir im Grunde genommen einige frühe Marktteilnehmer in Bezug auf die Datenbeschaffung und ziehen die Leiter hoch, damit niemand sonst Zugang zu Daten erhält, um aufzuholen."

Tatsächlich hat der Wettlauf um die Beschaffung von mehr Trainingsdaten nicht nur zu unethischem (und vielleicht sogar illegalem) Verhalten wie dem heimlichen Aggregieren urheberrechtlich geschützter Inhalte geführt, sondern auch Technologieriesen mit tiefen Taschen belohnt, die für Datenlizenzen bezahlen können.

Generative KI-Modelle wie die von OpenAI werden hauptsächlich auf Bildern, Texten, Audio, Videos und anderen Daten trainiert - zum Teil urheberrechtlich geschützten - die von öffentlichen Webseiten (einschließlich problematischerweise auch KI-generierten) bezogen werden. Die OpenAIs dieser Welt behaupten, dass die Fair-Use-Doktrin sie vor rechtlichen Konsequenzen schützt. Viele Rechteinhaber sind anderer Meinung - aber zumindest vorübergehend können sie nicht viel tun, um diese Praxis zu stoppen.

Es gibt viele Beispiele von generativen KI-Anbietern, die massive Datensätze auf fragwürdige Weise erwerben, um ihre Modelle zu trainieren. OpenAI hat angeblich mehr als eine Million Stunden YouTube-Videos ohne Segen von YouTube oder den Erstellern transkribiert, um ihr Flaggschiffmodell GPT-4 zu füttern. Google hat kürzlich seine Nutzungsbedingungen erweitert, um unter anderem öffentliche Google-Docs, Restaurantbewertungen auf Google Maps und andere Online-Materialien für seine KI-Produkte nutzen zu können. Und Meta soll in Betracht gezogen haben, Klagen zu riskieren, um seine Modelle auf urheberrechtlich geschütztem Inhalt zu trainieren.

Unternehmen, sowohl große als auch kleine, verlassen sich darauf, Arbeiter in Entwicklungsländern, die nur wenige Dollar pro Stunde verdienen, zu beschäftigen, um Annotationen für Trainingsdaten zu erstellen. Einige dieser Annotatoren - beschäftigt von riesigen Start-ups wie Scale AI - arbeiten buchstäblich tagelang, um Aufgaben zu erledigen, die sie Grafiken von Gewalt und Blutungen aussetzen, ohne jegliche Vorteile oder Garantien für zukünftige Jobs.

Steigende Kosten

Mit anderen Worten, auch die eher gesetzestreuen Daten-Deals fördern nicht gerade ein offenes und gerechtes generatives KI-Ökosystem.

OpenAI hat Hunderte Millionen Dollar für die Lizenzierung von Inhalten von Nachrichtenverlagen, Stock-Medienbibliotheken und mehr ausgegeben, um seine KI-Modelle zu trainieren - ein Budget, das bei weitem das der meisten akademischen Forschungsgruppen, Non-Profit-Organisationen und Start-ups übersteigt. Meta ging sogar so weit, in Betracht zu ziehen, den Verlag Simon & Schuster für die Rechte an E-Book-Auszügen zu erwerben (letztendlich verkaufte Simon & Schuster an das Private-Equity-Unternehmen KKR für 1,62 Milliarden Dollar im Jahr 2023).

Da der Markt für KI-Trainingsdaten in den nächsten zehn Jahren voraussichtlich von etwa 2,5 Milliarden auf knapp 30 Milliarden US-Dollar wachsen wird, drängen Datenmakler und Plattformen darauf, Höchstpreise zu verlangen - in einigen Fällen gegen den Widerstand ihrer Benutzerbasis.

Die Stock-Medienbibliothek Shutterstock hat Deals mit KI-Anbietern in Höhe von 25 Millionen bis 50 Millionen Dollar abgeschlossen, während Reddit behauptet, Hunderte Millionen durch die Lizenzierung von Daten an Organisationen wie Google und OpenAI verdient zu haben. Wenige Plattformen mit reichlich über Jahre organisch angehäuften Daten haben offenbar keine Vereinbarungen mit generativen KI-Entwicklern unterzeichnet - von Photobucket über Tumblr bis hin zur Frage-und-Antwort-Website Stack Overflow.

Es ist die Daten der Plattformen zu verkaufen - zumindest je nachdem, welchen rechtlichen Argumenten Sie glauben. Aber in den meisten Fällen sehen die Benutzer keinen Cent von den Gewinnen. Und es schadet der breiten KI-Forschergemeinschaft.

"Kleinere Akteure werden sich diese Datenlizenzen nicht leisten können und daher keine KI-Modelle entwickeln oder untersuchen können", sagte Lo. "Ich mache mir Sorgen, dass dies zu einem Mangel an unabhängiger Überprüfung der KI-Entwicklung führen könnte."

Unabhängige Bemühungen

Wenn es einen Lichtblick inmitten der Dunkelheit gibt, dann sind es die wenigen unabhängigen, gemeinnützigen Bemühungen, massive Datensätze zu erstellen, die jeder zur Schulung eines generativen KI-Modells verwenden kann.

EleutherAI, eine gemeinnützige Forschungsgruppe, die 2020 als lockere Discord-Kollektiv begann, arbeitet mit der Universität von Toronto, AI2 und unabhängigen Forschern zusammen, um The Pile v2 zu erstellen, einen Satz von Milliarden Textpassagen, die hauptsächlich aus dem öffentlichen Bereich stammen.

Im April veröffentlichte das KI-Startup Hugging Face FineWeb, eine gefilterte Version des Common Crawl - des gleichnamigen Datensatzes, gepflegt von der gemeinnützigen Organisation Common Crawl, bestehend aus Milliarden von Webseiten -, von dem Hugging Face behauptet, dass es die Modellleistung in vielen Benchmarks verbessert.

Einige Bemühungen, offene Trainingsdaten zu veröffentlichen, wie die Bildersätze der Gruppe LAION, sind auf Urheberrechts-, Datenschutz- und anderen ebenso schwerwiegenden ethischen und rechtlichen Herausforderungen gestoßen. Aber einige der engagierten Datenaufbereiter haben versprochen, es besser zu machen. Der Pile v2 entfernt beispielsweise problematische urheberrechtlich geschützte Materialien, die in seinem Vorgänger-Datensatz, The Pile, gefunden wurden.

Die Frage ist, ob diese offenen Bemühungen mit Big Tech mithalten können. Solange Datenerfassung und -aufbereitung eine Frage der Ressourcen sind, ist die Antwort wahrscheinlich nein - zumindest nicht, bis ein Forschungsdurchbruch das Spielfeld ausgleicht.

Mashi. Nordeuropa