Sociology

Fairgen 'erhöht' Umfrageergebnisse mit synthetischen Daten und KI-generierten Antworten

Umfragen werden seit Menschengedenken verwendet, um Erkenntnisse über Bevölkerungen, Produkte und die öffentliche Meinung zu gewinnen. Und obwohl sich die Methoden im Laufe der Jahrtausende verändert haben mögen, ist eines konstant geblieben: Der Bedarf an Menschen, viele Menschen.

Aber was ist, wenn Sie nicht genügend Menschen finden können, um eine ausreichend große Stichprobengruppe zu bilden, um aussagekräftige Ergebnisse zu erzielen? Oder was ist, wenn Sie potenziell genügend Menschen finden könnten, aber Budgetbeschränkungen die Menge an Personen begrenzen, die Sie beschaffen und interviewen können?

Hier möchte Fairgen helfen. Das israelische Startup hat heute eine Plattform eingeführt, die "statistische KI" verwendet, um synthetische Daten zu generieren, die nach eigenen Angaben genauso gut sind wie die Realität. Das Unternehmen gibt außerdem eine frische Finanzierung in Höhe von 5,5 Millionen US-Dollar von Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia und einer Handvoll Business Angels bekannt, womit sich die gesamte Geldsumme, die seit der Gründung aufgenommen wurde, auf 8 Millionen US-Dollar beläuft.

„Falsche Daten“

Daten mögen der Lebenssaft der KI sein, aber sie sind auch der Grundstein der Marktforschung seit eh und je. Wenn also die beiden Welten aufeinandertreffen, wie es in der Welt von Fairgen der Fall ist, wird der Bedarf an qualitativ hochwertigen Daten etwas deutlicher.

Im Jahr 2021 in Tel Aviv, Israel, gegründet, konzentrierte sich Fairgen zuvor darauf, Voreingenommenheiten in der KI anzugehen. Doch Ende 2022 wechselte das Unternehmen zu einem neuen Produkt, Fairboost, das jetzt aus der Beta-Phase heraus gestartet wird.

Fairboost verspricht, einen kleineren Datensatz um bis zu das Dreifache zu „verstärken“, indem detailliertere Einblicke in Nischen ermöglicht werden, die sonst zu schwer zu erreichen oder zu teuer wären. Unternehmen können damit ein tiefgreifendes maschinelles Lernmodell für jeden auf der Fairgen-Plattform hochgeladenen Datensatz trainieren, wobei die statistische KI Muster über die verschiedenen Umfragesegmente hinweg lernt.

Das Konzept „synthetischer Daten“ – also Daten, die künstlich erstellt und nicht aus realen Ereignissen stammen – ist nicht neu. Seine Wurzeln reichen zurück in die Anfänge des Computings, als es zur Testung von Software und Algorithmen verwendet wurde und Prozesse simuliert wurden. Heutzutage hat synthetische Daten, wie wir sie verstehen, besonders mit dem Aufkommen des maschinellen Lernens, eine eigene Dynamik angenommen, wo sie zunehmend zur Schulung von Modellen eingesetzt werden. Wir können sowohl Probleme mit Datenknappheit als auch Datenschutzbedenken lösen, indem wir künstlich generierte Daten verwenden, die keine sensiblen Informationen enthalten.

Fairgen ist das neueste Startup, das synthetische Daten auf die Probe stellt, und es hat die Marktforschung als primäres Ziel. Es sei darauf hingewiesen, dass Fairgen keine Daten aus dem Nichts erzeugt oder Millionen von historischen Umfragen in einen KI-gesteuerten Schmelztiegel wirft – Marktforscher müssen eine Umfrage für eine kleine Stichprobe ihres Zielpublikums durchführen, und von dort aus ermittelt Fairgen Muster, um die Stichprobe zu erweitern. Das Unternehmen gibt an, dass es mindestens eine Verdopplung der ursprünglichen Stichprobe garantieren kann, im Durchschnitt jedoch eine Verdreifachung erreichen kann.

Auf diese Weise könnte Fairgen feststellen, dass Personen einer bestimmten Altersgruppe und/oder Einkommensstufe eher geneigt sind, eine Frage auf eine bestimmte Weise zu beantworten. Oder beliebig viele Datenpunkte kombinieren, um aus dem ursprünglichen Datensatz zu extrapolieren. Es geht im Grunde darum, das zu generieren, was der Fairgen-Mitbegründer und CEO Samuel Cohen als „stärkere, robustere Datensegmente mit einer geringeren Fehlerquote“ bezeichnet.

„Die Haupterkenntnis war, dass Menschen zunehmend vielfältiger werden – Marken müssen sich anpassen und sie müssen ihre Kundensegmente verstehen“, erklärte Cohen gegenüber TechCrunch. „Segmenten sind sehr unterschiedlich – Gen Zs denken anders als ältere Menschen. Und um dieses Marktverständnis auf Segmentebene haben zu können, kostet es viel Geld, benötigt viel Zeit und operative Ressourcen. Und da habe ich den Schmerzpunkt erkannt. Wir wussten, dass synthetische Daten dort eine Rolle spielen können.“

Eine offensichtliche Kritik – eine, die das Unternehmen zugibt, mit der sie konfrontiert wurden – ist, dass dies alles wie ein massiver Shortcut daherkommt, um sich den Gang aufs Feld, das Interviewen echter Menschen und das Einsammeln realer Meinungen zu sparen.

Sollte nicht jede unterrepräsentierte Gruppe besorgt sein, dass ihre wirklichen Stimmen durch, nun ja, gefälschte Stimmen ersetzt werden?

„Jeder einzelne Kunde, mit dem wir im Forschungsbereich gesprochen haben, hat enorme blinde Flecken – völlig schwer zu erreichende Zielgruppen“, sagte Fairgens Leiter für Wachstum, Fernando Zatz, zu TechCrunch. „Sie verkaufen tatsächlich Projekte nicht, weil nicht genügend Leute verfügbar sind, insbesondere in einer zunehmend vielfältigen Welt, in der es eine Menge Marktsegmentierungen gibt. Manchmal können sie nicht in bestimmte Länder gehen; sie können nicht in bestimmte demografische Gruppen gehen, also verlieren sie tatsächlich Projekte, weil sie ihre Quoten nicht erreichen können. Sie haben eine Mindestanzahl [von Befragten], und wenn sie diese Zahl nicht erreichen, verkaufen sie die Erkenntnisse nicht.“

Fairgen ist nicht das einzige Unternehmen, das generative KI auf dem Gebiet der Marktforschung einsetzt. Qualtrics sagte letztes Jahr, dass es 500 Millionen US-Dollar über vier Jahre investieren werde, um generative KI auf seine Plattform zu bringen, wobei der Schwerpunkt auf qualitativer Forschung liegt. Es ist jedoch ein weiterer Beweis dafür, dass synthetische Daten da sind und bleiben.

Aber die Validierung der Ergebnisse wird eine wichtige Rolle spielen, um die Menschen davon zu überzeugen, dass dies echt ist und kein Kosteneinsparungsmittel, das suboptimale Ergebnisse produzieren wird. Fairgen tut dies, indem es einen „echten“ Stichproben-Boost mit einem „synthetischen“ Stichproben-Boost vergleicht – es nimmt eine kleine Stichprobe des Datensatzes, extrapoliert sie und stellt sie neben das Echte.

„Bei jedem einzelnen Kunden, den wir gewinnen, führen wir genau diese Art von Test durch“, sagte Cohen.

Statistisch gesehen

Cohen hat einen MSc in Statistik von der Universität Oxford und einen Doktortitel in maschinellem Lernen von der UCL in London, von denen ein Teil einen neunmonatigen Forschungsaufenthalt als Wissenschaftler bei Meta umfasste.

Einer der Mitbegründer des Unternehmens ist Vorsitzender Benny Schnaider, der zuvor im Bereich Unternehmenssoftware tätig war und vier Unternehmensverkäufe vorweisen kann: Ravello an Oracle für angeblich 500 Millionen US-Dollar im Jahr 2016; Qumranet an Red Hat für 107 Millionen US-Dollar im Jahr 2008; P-Cube an Cisco für 200 Millionen US-Dollar im Jahr 2004; und Pentacom an Cisco für 118 Millionen US-Dollar im Jahr 2000.

Dann gibt es Emmanuel Candès, Professor für Statistik und Elektrotechnik an der Stanford University, der als führender wissenschaftlicher Berater für Fairgen tätig ist.

Dieses geschäftliche und mathematische Rückgrat ist ein entscheidender Verkaufspunkt für ein Unternehmen, das versucht, der Welt zu erklären, dass gefälschte Daten every bit so gut sein können wie echte Daten, wenn sie richtig angewandt werden. So sind sie auch in der Lage, die Schwellenwerte und Grenzen ihrer Technologie klar zu erklären – wie groß die Stichproben sein müssen, um die optimalen Verstärkungen zu erreichen.

Nach Cohen benötigen sie idealerweise mindestens 300 echte Befragte für eine Umfrage, und von diesem können Fairboost einen Segmentumfang verstärken, der nicht mehr als 15% der breiteren Umfrage ausmacht.

„Unterhalb von 15% können wir eine durchschnittliche 3-fache Verstärkung garantieren, nachdem wir sie mit Hunderten von parallelen Tests validiert haben“, sagte Cohen. „Statistisch gesehen sind die Gewinne über 15% weniger dramatisch. Die Daten weisen bereits gute Vertrauensniveaus auf, und unsere synthetischen Befragten können sie nur potenziell erreichen oder eine marginale Verbesserung bringen. Geschäftlich gesehen gibt es auch über 15% keinen Schmerzpunkt mehr – Marken können bereits Erkenntnisse aus diesen Gruppen gewinnen; sie sind nur auf der Nischenebene stecken geblieben.“

Der No-LLM-Faktor

Zu beachten ist, dass Fairgen keine großen Sprachmodelle (LLMs) verwendet, und seine Plattform erzeugt keine „plain English“-Antworten à la ChatGPT. Der Grund dafür ist, dass ein LLM Lerngewinne aus zahlreichen anderen Datenquellen außerhalb der Parameter der Studie nutzen würde, was die Wahrscheinlichkeit erhöht, Verzerrungen einzuführen, die mit quantitativer Forschung unvereinbar sind.

Bei Fairgen dreht sich alles um statistische Modelle und tabellarische Daten, und sein Training beruht ausschließlich auf den Daten, die im hochgeladenen Datensatz enthalten sind. Das ermöglicht es Marktforschern, neue und synthetische Befragte zu generieren, indem sie von benachbarten Segmenten in der Umfrage extrapolieren.

„Wir verwenden keine LLMs aus einem sehr einfachen Grund, nämlich dass, wenn wir viele [andere] Umfragen vorab schulen würden, wir nur Fehlinformationen übermitteln würden“, sagte Cohen. „Denn dann hätten Sie Fälle, in denen es in einer anderen Umfrage etwas gelernt hat, und das wollen wir nicht. Es geht um Zuverlässigkeit.“

In Bezug auf das Geschäftsmodell wird Fairgen als SaaS verkauft, wobei Unternehmen ihre Umfragen in beliebig strukturierter Form (.CSV oder .SAV) auf die Cloud-Plattform von Fairgen hochladen. Laut Cohen dauert es bis zu 20 Minuten, um das Modell mit den Umfragedaten zu trainieren, abhängig von der Anzahl der Fragen. Der Benutzer wählt dann ein „Segment“ (eine Untermenge von Befragten, die bestimmte Merkmale teilen) – z.B. „Gen Z, die in Branche x arbeitet“ – und Fairgen liefert dann eine neue Datei in der gleichen Struktur wie die originale Trainingsdatei, mit den genau gleichen Fragen, einfach neuen Zeilen.

Fairgen wird von BVA und IFOP, einer französischen Meinungsforschungs- und Marktforschungsfirma, genutzt, die bereits die Technologie des Startups in ihre Dienstleistungen integriert haben. IFOP, das in etwa Gallup in den USA ähnelt, nutzt Fairgen für Umfragezwecke bei den Europawahlen, obwohl Cohen denkt, dass es möglicherweise auch für die US-Wahlen später in diesem Jahr eingesetzt werden könnte.

„IFOP ist im Grunde unser Gütesiegel, weil sie seit rund 100 Jahren existieren“, sagte Cohen. „Sie haben die Technologie validiert und waren unser ursprünglicher Design-Partner. Wir testen oder integrieren auch mit einigen der größten Marktforschungsunternehmen der Welt, über die ich noch nicht sprechen darf.“

Related Articles

Back to top button Back to top button