B2B

Was sind eigentlich synthetische Daten?

Künstliche Intelligenz (KI) boomt. Umso wichtiger werden sogenannte „synthetische Daten“. So bezeichnet man ganz allgemein alle Daten, die künstlich generiert worden sind, also nicht auf echten Messungen beruhen. Daher werden sie auch manchmal „künstliche Daten“ genannt. Das können Bilder, Texte oder Videos sein, ebenso wie Zahlen. In der Regel werden solche Daten auch dazu verwendet, um KI-Systeme zu trainieren.

Großer Vorteil: Datenschutz

Das Besondere an synthetischen Daten: Sie können keine Persönlichkeits- und Datenschutzrechte verletzen. Sie unterliegen nicht der Datenschutzgrundverordnung (DSGVO), weil sie keinen real existierenden Personen zugeordnet werden können. Das ist in der Praxis ein großer Vorteil für Unternehmen.

Echte synthetische Daten, die von einer KI generiert worden sind, lassen sich nämlich nicht deanonymisieren. Damit sind jene Unternehmen, die sie einsetzen, datenschutzrechtlich tatsächlich auf der „sicheren Seite“. Klassische Deanonymisierungsverfahren hingegen sind oft umkehrbar oder unsicher.

PiktID setzt etwa auf synthetische Daten bei Gesichtern. Das linke Bild zeigt ein "echtes" Kind, beim rechten Bild wurden Gesicht und Haare getauscht und künstlich generiert. Das Kind am rechten Bild existiert nicht.

Testumgebung wird dadurch sicherer

Synthetische Daten werden bereits von sehr vielen US-Firmen eingesetzt. Amazon setzt sie etwa dazu ein, um die digitale Sprachassistentin Alexa zu trainieren. Auch Bilderkennungssysteme von autonomen Autos werden damit trainiert. KI-Bildgeneratoren können ebenfalls damit trainiert und verbessert werden. Doch es gibt zahlreiche, weitere Einsatzzwecke.

Synthetische Daten können etwa auch dazu eingesetzt werden, neue Funktionen von Anwendungen auszuprobieren, etwa von Entwickler*innen in einer Testumgebung. Der größte Fehler, den Entwickler hier nämlich machen können, ist es, bei Tests von neuen Programmen oder Datenbanken echte, personenbezogene Daten zu verwenden. Diese könnten, gerade in schlecht abgesicherten Testumgebungen, leicht gestohlen werden. Oder sie werden nach der Inbetriebnahme des „echten“ Produkts einfach vergessen. So könnten Cyberkriminelle an echte Datensätze gelangen, obwohl das gar nicht notwendig ist.

Synthetische Daten werden per Software generiert

Synthetische Daten, die in Testumgebungen zum Einsatz kommen, sollten dabei möglichst nahe an echten Daten sein, diesen also stark ähneln. Doch die Informationen und Zusammenhänge sollen künstlich völlig neu generiert werden.

Das geht technisch heutzutage mit bestimmter Software, unter anderem von Unternehmen wie Mostly AI. Damit lassen sich aus echten Daten synthetische generieren, die den echten Daten stark ähneln, aber kein Personenbezug mehr herstellbar ist. 

Anomalien in Bankensystemen aufdecken

Doch Testumgebungen sind nicht der einzige Anwendungszweck von synthetischen Daten. Branchen, für die derartige künstlich generierte Daten interessant sein könnten, sind etwa auch die Finanz- oder Gesundheitsbranche.

KI-Systeme kommen dort etwa immer häufiger zum Einsatz, um Anomalien in Systemen zu entdecken. Ein Beispiel: Eine Bank möchte Kund*innen rechtzeitig warnen, wenn auf dem Konto verdächtige Abbuchungen entdeckt werden, die nicht in das übliche Anwender*innenverhalten reinpassen.

Dazu entwickelt die Bank ein KI-System, das genau dies überwachen und im Zweifelsfall Alarm schlagen kann. In der Regel wird dann ein Mensch kontrollieren, ob es sich wirklich um außergewöhnliche Kontobewegungen handelt, oder ob einfach eine besondere Situation eingetreten ist.

Synthetischer Datenzwilling

Damit ein KI-System bei einer Bank Alarm schlagen kann, muss es, ähnlich wie Chatprogramme oder Bildgeneratoren, erst einmal mit Daten trainiert werden. Hier kommen synthetische Daten ins Spiel. Statt das System mit Original-Daten zu trainieren, kann es Anomalien auch mit synthetischen Daten kennenlernen.  

Damit das funktioniert, müssen diese künstlich erzeugten Daten allerdings so modelliert werden, dass sie Originaldaten möglichst gut nachahmen. Dazu wird etwa ein „synthetischer Datenzwilling“ generiert, mit dem man sensible und datenschutzrelevante Originaldaten nachmachen kann. Wichtig ist hier bei Kontobewegungen z.B. statistische Muster nachzubilden, damit man eben verdächtigen Bewegungen auf die Spur kommen kann.

Weitere Branchen hätten Vorteile

Derartige Modelle werden in der Regel nicht von den Banken selbst generiert, sondern dafür sorgen KI-Spezialfirmen, die sich auf die Herstellung synthetischer Daten konzentriert haben. Ein österreichisches Start-up, das in diesem Bereich tätig ist, ist etwa Mostly AI.

Das Marktforschungsinstitut Gartner rechnet damit, dass 2024 bereits 60 Prozent der Daten, mit denen KI-Systeme trainiert werden, synthetisch sein werden. Derzeit ist das noch nicht der Fall.

Neben der Bankenbranche liegen enorme Chancen beim Einsatz solcher Daten in der Gesundheitsbranche. Auch hier müssen nicht zwingend Originaldaten von Patient*innen verwendet werden, um hinter bestimmte Muster und Krankheiten zu kommen, oder gesundheitliche Anomalien aufzudecken.

Ähnlich gute Ergebnisse wie mit "echten" Daten

Auch das Kärntner Start-up PiktAI setzt auf synthetische Daten. Bei dieser Firma werden Gesichter künstlich generiert, sodass keine „echten“ Personen mehr von Plakatwänden und Werbeflächen auf uns runterstarren.

Doch wie gut sind künstlich erzeugte Daten im Vergleich zu den Originaldaten? Im Vergleich mit KI-Systemen, die mit Originaldaten trainiert wurden, kommen sie laut einem Bericht von LSZ.at auf eine sehr ähnliche Leistung.

Frag die futurezone

In der Rubrik „Frag die futurezone“ recherchieren und beantworten wir ausgewählte Fragen zu Tech-Themen für euch.

Stellen könnt ihr sie mit einer E-Mail an die Adresse redaktion@futurezone.at - Betreff: “Frag die futurezone”, ihr könnt uns aber auch gern via Social Media (Facebook, Instagram, Twitter) kontaktieren.

Klicken Sie hier für die Newsletteranmeldung

Hat dir der Artikel gefallen? Jetzt teilen!

Barbara Wimmer

shroombab

Preisgekrönte Journalistin, Autorin und Vortragende. Seit November 2010 bei der Kurier-Futurezone. Schreibt und spricht über Netzpolitik, Datenschutz, Algorithmen, Künstliche Intelligenz, Social Media, Digitales und alles, was (vermeintlich) smart ist.

mehr lesen