Internet

OpenAI sagt, dass es ein Tool entwickelt, mit dem Content-Ersteller sich bei der KI-Training abmelden können

Mashi. Nordeuropa Tuesday, July 16 2024

OpenAI sagt, dass es ein Tool entwickelt, mit dem Content-Ersteller besser kontrollieren können, wie ihre Inhalte beim Training der generativen KI verwendet werden.

Das Tool namens Media Manager wird es Erstellern und Inhabern von Inhalten ermöglichen, ihre Werke OpenAI zu identifizieren und anzugeben, wie sie möchten, dass diese Werke in die KI-Forschung und das Training einbezogen oder ausgeschlossen werden.

Das Ziel ist es, das Tool bis 2025 einzuführen, sagt OpenAI, während das Unternehmen mit "Erstellern, Inhabern von Inhalten und Regulierungsbehörden" an einem Standard arbeitet - vielleicht durch das kürzlich beigetretene Branchenlenkungskomitee.

"Dies erfordert die Spitzenforschung im Bereich maschinelles Lernen, um ein erstes Tool seiner Art zu bauen, das uns dabei hilft, urheberrechtlich geschützten Text, Bilder, Audio- und Videomaterial aus verschiedenen Quellen zu identifizieren und die Präferenzen des Erstellers widerzuspiegeln," schrieb OpenAI in einem Blogbeitrag. "Im Laufe der Zeit planen wir, zusätzliche Auswahlmöglichkeiten und Funktionen einzuführen."

Es scheint, dass Media Manager, in welcher Form es letztendlich erscheint, OpenAIs Antwort auf wachsende Kritik an seinem Ansatz zur Entwicklung von KI ist, der stark auf dem Sammeln öffentlich zugänglicher Daten aus dem Web beruht. Zuletzt verklagten acht bekannte US-Zeitungen, darunter die Chicago Tribune, OpenAI wegen geistigen Eigentumsverletzungen im Zusammenhang mit der Nutzung von generativer KI. Sie beschuldigten OpenAI, Artikel zum Training von generativen KI-Modellen zu stehlen, die dann kommerzialisiert wurden, ohne die Quellpublikationen zu entschädigen oder zu nennen.

Generative KI-Modelle wie die von OpenAI - die Arten von Modellen, die Texte, Bilder, Videos und mehr analysieren und generieren können - werden anhand einer enormen Anzahl von Beispielen trainiert, die in der Regel von öffentlichen Websites und Datensätzen stammen. OpenAI und andere Anbieter von generativer KI argumentieren, dass die Fair Use, die rechtliche Doktrin, die die Nutzung urheberrechtlich geschützter Werke zur Schaffung eines sekundären Werkes ermöglicht, solange es transformierend ist, ihre Praxis des Sammelns öffentlicher Daten und deren Verwendung für das Training von Modellen abschirmt. Aber nicht alle stimmen dem zu.

Tatsächlich argumentierte OpenAI kürzlich, dass es unmöglich wäre, nützliche KI-Modelle ohne urheberrechtlich geschütztes Material zu erstellen.

Aber um Kritiker zu besänftigen und sich gegen zukünftige Klagen zu verteidigen, hat OpenAI Schritte unternommen, um Content-Ersteller entgegenzukommen.

OpenAI ermöglichte im vergangenen Jahr Künstlern, sich "abzumelden" und ihre Werke aus den Datensätzen zu entfernen, die das Unternehmen zur Schulung seiner bildgenerierenden Modelle verwendet. Das Unternehmen lässt auch Website-Betreiber über den robots.txt-Standard angeben, ob Inhalte auf ihrer Website für das Training von KI-Modellen gescraped werden können. Und OpenAI schließt weiterhin Lizenzvereinbarungen mit großen Inhaltsinhabern ab, darunter Nachrichtenorganisationen, Börsenmedienbibliotheken und Q&A-Sites wie Stack Overflow.

Einige Content-Ersteller sagen jedoch, dass OpenAI nicht weit genug gegangen ist.

Künstler haben OpenAIs Opt-Out-Workflow für Bilder als aufwändig beschrieben, der das Einreichen einer individuellen Kopie jedes zu entfernenden Bildes mit einer Beschreibung erfordert. Berichten zufolge zahlt OpenAI relativ wenig für die Lizenzierung von Inhalten. Und wie OpenAI selbst in dem Blogbeitrag am Dienstag zugibt, lösen die aktuellen Lösungen des Unternehmens nicht Situationen, in denen Werke von Erstellern zitiert, remixt oder auf Plattformen, die sie nicht kontrollieren, erneut veröffentlicht werden.

Jenseits von OpenAI versuchen eine Reihe von Drittanbietern, universale Herkunfts- und Opt-Out-Tools für generative KI zu entwickeln.

Das Startup Spawning AI, dessen Partner Stability AI und Hugging Face sind, bietet eine App an, die IP-Adressen von Bots identifiziert und verfolgt, um Scrape-Versuche zu blockieren, sowie eine Datenbank, in der Künstler ihre Werke registrieren können, um das Training durch Anbieter zu verbieten, die die Anfragen respektieren möchten. Steg.AI und Imatag helfen Erstellern dabei, den Besitz an ihren Bildern festzustellen, indem sie Wasserzeichen anwenden, die für das menschliche Auge nicht wahrnehmbar sind. Und Nightshade, ein Projekt von der Universität Chicago, "vergiftet" Bilddaten, um sie nutzlos oder störend für das Training von KI-Modellen zu machen.

Mashi. Nordeuropa

Mashi. Nordeuropa

Related Articles

Foto-Sharing-Community EyeEm stellt Benutzerfotos zur Lizenzierung für KI-Training zur Verfügung, wenn sie diese nicht löschen

EU-Plan zur Zwangssuche in Messaging-Apps nach CSAM-Risiken führt zu Millionen falschen Treffern, warnen Experten

Yelp aktualisiert App mit KI-gestütztem Alternativtext für Bilder und neuen Zugänglichkeitsidentifikatoren für Unternehmen

GrubMarket kauft Butter, um seine Lebensmittelvertriebstechnologie mit einem KI-Boost zu verbessern

DataStax erwirbt das Startup hinter dem Low-Code-KI-Builder Langflow

Quora CEO Adam D’Angelo spricht über KI, Chatbot-Plattform Poe und warum OpenAI kein Konkurrent ist