Symbolbild für personenbezogene Daten

Symbolbild für personenbezogene Daten

© APA/AFP/DAVID MCNEW / DAVID MCNEW

Start-ups

Wie ein Wiener Start-up die Vorurteile in KI-Systemen bekämpfen will

Medizin, Banken, Versicherungen, Mobilität: Es gibt zahlreiche Bereiche, bei denen personenbezogene Daten für diverse Analysen interessant sein können. Meistens ist es dabei aber völlig irrelevant, wer eine Versicherung abgeschlossen hat, gerade mit einem gesundheitlichen Problem kämpft oder von A nach B fährt. Damit dieser Personenbezug wegfällt, setzen viele Firmen Anonymisierungsverfahren ein. „Traditionelle Anonymisierung zerstört aber die Datenqualität und ist gar nicht so sicher. Oftmals ist es möglich, Individuen zu reidentifizieren“, erklärt Tobias Hann, Geschäftsführer vom Start-up Mostly AI.

Nur die Daten bleiben übrig, die benötigt werden

Das Start-up Mostly AI hat eine völlig neue Methode entwickelt, wie man bei echten, personenbezogenen Daten die Privatsphäre schützen, aber diese dennoch für Analysezwecke einsetzen kann: Das Start-up generiert daraus sogenannte „strukturierte, synthetische Daten“ mittels künstlicher Intelligenz. „Eine Software wandelt die echten Daten um und macht daraus künstlich generierte. Der Personenbezug fällt weg, die Datenqualität bleibt erhalten“, erklärt Hann.

Das bedeutet in der Praxis: Wenn etwa eine Firma oder eine Stadt die E-Bikes trackt, die ausgeliehen werden, sammelt diese Daten über die Personen und die Routen. Benötigt werden allerdings nur die Daten über die Routen, nicht, wer wann wo gefahren ist. Mit der Software von Mostly AI werden die Daten daher umgewandelt und am Ende bleiben nur die relevanten Daten übrig. „Das ist nicht nur spannend für Verkehrs- und Mobilitätsplanung, sondern man könnte etwa auch anhand der Daten entscheiden, wo es sich lohnt, ein Restaurant zu eröffnen, oder sich als Business-Standort anzusiedeln“, sagt Hann.

➤ Mehr lesen: Was sind eigentlich synthetische Daten?

Das Team von Mostly AI, bestehend aus rund 50 Mitarbeiter*innen, ist quer über alle Kontinente verstreut.

Begonnen hat es in Wien vor 6 Jahren

Mit der Entwicklung begonnen hat Mostly AI bereits vor rund 6 Jahren. „3 Data-Scientists haben schon damals das große Potenzial von generativer, künstlicher Intelligenz gesehen, auf der auch synthetische Daten basieren. Damals gab es allerdings nur erste Anwendungen im Bereich von Bildern, die als Inspiration dienten“, erzählt Hann. Ähnlich wie allgemeine, generative KI wie ChatGPT, sind auch synthetische Daten gerade erst im Kommen. Das Marktforschungsinstitut Gartner prognostiziert, dass dieses Geschäftsfeld enorm zunehmen wird.

„Am meisten Potenzial sehen wir im Gesundheits- und Bankenbereich“, erzählt Hann. Die Software von Mostly AI ist mittlerweile als ausgereiftes Produkt bereits bei zahlreichen Kund*innen im Einsatz. Auch die Stadt Wien setzt auf die Services der Firma. Mostly AI hat nämlich in Wien mit der Entwicklung der Software begonnen, hat sich aber mittlerweile völlig internationalisiert. 50 Mitarbeiter*innen arbeiten von weltweit 25 Standorten aus und es gibt nirgendwo mehr wirkliche Büros. „In Wien arbeiten aktuell 20 Mitarbeiter*innen“, sagt Hann, der selbst aktuell von New York aus das Geschäft betreut.

„Synthetische Daten können dabei helfen, ausgeglicheneres Trainingsmaterial für KI-Systeme zur Verfügung zu stellen."

Tobias Hann, Mostly AI CEO

Frauen benachteiligt: KI-Systeme können helfen

„Der Schutz von personenbezogenen Daten ist  auch Unternehmen in den USA ein Anliegen“, so Hann. Die Daten bleiben dabei stets auf den Servern der Kund*innen. Mostly AI stelle nur die Software bereit, heißt es. Auch wenn es bereits ein fertiges Produkt gibt, wird im KI-Bereich fleißig weiter geforscht. „Wir haben ein eigenes KI-Research-Team, das daran arbeitet, zu erforschen, wie man Daten noch flexibler gestalten kann“, sagt Hann.

Mostly AI forscht unter anderem daran, wie mit synthetischen Daten der „Bias“, der echten Datensätzen häufig zugrunde liegt, korrigiert werden kann. Bei KI-Bildern werden etwa sexualisierte Darstellungen von Frauen generiert, weil das Ausgangsmaterial der Bilder, mit denen die KI gefüttert wurde, bereits sexualisiert war. Dasselbe passiert aber auch mit Datensätzen. Wenn bei bestimmten Jobs etwa nur Männer in der Vorstandsebene zu finden waren, lernen KI-Systeme dies aufgrund der historischen Daten nur so kennen und bevorzugen weiterhin Männer in diesen Positionen.

„Synthetische Daten können dabei helfen, ausgeglicheneres Trainingsmaterial für KI-Systeme zur Verfügung zu stellen. Strukturierte Daten können erkennen, welche Daten in der Minderheit vorhanden sind und dieses Defizit ausgleichen“, so Hann. Das System sei derzeit zwar noch nicht produktiv bei Kunden im Einsatz, aber in einer wissenschaftlichen Publikation sei der Vorteil von synthetischer Daten zur Reduktion von „Bias“ bereits aufgezeigt worden, sagt der Geschäftsführer: „Wir haben einen Ansporn, das weiterzuentwickeln und in ein Produkt zu verwandeln.“ In den nächsten ein bis 2 Jahren soll es soweit sein.

Hat dir der Artikel gefallen? Jetzt teilen!

Barbara Wimmer

shroombab

Preisgekrönte Journalistin, Autorin und Vortragende. Seit November 2010 bei der Kurier-Futurezone. Schreibt und spricht über Netzpolitik, Datenschutz, Algorithmen, Künstliche Intelligenz, Social Media, Digitales und alles, was (vermeintlich) smart ist.

mehr lesen
Barbara Wimmer

Kommentare