© Getty Images/iStockphoto / metamorworks/IStockphoto.com

Science
07/24/2019

Algorithmus identifiziert Menschen aus anonymisierten Daten

Wissenschaftler haben ein Programm entwickelt, das fast alle Amerikaner anhand anonymisierter Daten identifizieren kann.

Anonymisierte Daten dienen heutzutage immer häufiger als Basis für Forschung und Marketing. Die Daten, die aus den Schatztruhen von zahlreichen Unternehmen und Anbietern wie Ärzten, Banken, Verkehrsbetrieben oder Mobilfunkanbietern stammen, werden von den jeweiligen Firmen – oft mit generalisierter Zustimmung der Nutzer - anonymisiert und an Datenhändler verkauft. Diese verkaufen die Daten selbst weiter.

Doch wer glaubt, dass diese Daten wirklich keine Rückschlüsse auf Personen zulassen, irrt. Das haben nun Forscher vom Imperial College London und der Universität Louvain herausgefunden. Sie haben ein Programm entwickelt, mit dem sich 99,97 Prozent der US-Amerikaner identifizieren lassen. Dazu brauchen sie nur 15 demografische Attribute und ein bisschen Machine Learning, wie es in einem Bericht der „New York Times“ heißt. Die Forscher haben ihre Ergebnisse im „Nature Communications“-Magazin vorgestellt. Attribute sind dabei etwa Wohnort, Geschlecht oder Familienstatus.

Tool zum Nachprüfen

Das Programm wurde von den Forschern mit Daten von elf Millionen Menschen gefüttert, die aus 210 Datensets von fünf verschiedenen Quellen stammen. Das Imperial College London hat neben den Ergebnissen außerdem ein Tool im Netz veröffentlicht, mit dem man checken kann, wie wahrscheinlich es ist, dass seine eigenen Daten korrekt re-identifiziert und mit seiner Person in Verbindung gebracht werden können. Das Tool gibt es allerdings nur für die USA und Großbritannien.

Die Wissenschaftler wollten damit aufzeigen, dass trotz Anonymisierung in den meisten Fällen ein Personenbezug hergestellt werden kann. „Früher gab es kein Big Data. Das heißt, der Nutzen von Daten wird erst jetzt so richtig erkannt. Je mehr Daten ich habe, desto mehr Überlegungen muss ich mir aber für den Schutz machen. Viele wachen aber leider erst dann auf, wenn etwas passiert“, sagt die Datenexpertin Maha Sounbl im Gespräch mit der futurezone.

Unterschiedliche Anonymisierung

Sounbl hielt auf der sec4dev-Konferenz in Wien einen Vortrag über die Anonymisierungsverfahren, die bei Unternehmen eingesetzt werden. Laut der Datenexpertin gibt es drei Typen und nur ein Typus lässt absolut keine Deanonymisierung wieder zu. Bei der formalen Anonymisierung werden etwa nur direkte Identifikatoren wie Name oder IP-Adresse rausgelöscht, bei der faktischen Anonymisierung werden weitere Merkmale aus Tabellen entfernt, die die Daten einer Person zugänglich machen. Diese Daten bleiben aber weiter vorhanden, sind nur getrennt von den anderen Daten – etwa verschlüsselt – gespeichert. „Hier spricht man von einer Pseudonymisierung. Diese ist wieder rückgängig machbar“, erklärt die Expertin.

Nur mit einer „absoluten Anonymisierung“ werden die Daten tatsächlich so unbrauchbar gemacht, dass keine Rückschlüsse mehr auf Personen gezogen werden können. Alle personenbezogenen Informationen werden dann entweder komplett gelöscht, oder aber der Schlüssel zu den zuvor verschlüsselten Informationen, wird entsorgt. Für Unternehmen sei es oft schwierig, die Schere zu schließen, Daten für alle Zwecke nutzen zu können, gleichzeitig aber das Prinzip der Datenminimierung zu befolgen, sagt Sounbl.

Je mehr Daten, desto wertvoller

In vielen Fällen wird bei Unternehmen offenbar nur eine faktische Anonymisierung eingesetzt, so dass Rückschlüsse auf Personen nach wie vor möglich bleiben. Oft vergessen Unternehmen etwa zu überprüfen, wie groß oder klein das Sample ist und dass allein dadurch Rückschlüsse auf einzelne Personen möglich wird. Wenn sich in einem Sample etwa nur zwei Frauen mit Hund in einem bestimmten Wohnort wiederfinden, ist es einfach, diese zu re-identifizieren.

Je weniger Informationen Datensätze enthalten, desto weniger wertvoll sind sie zudem für die Wissenschaft, heißt es im Bericht der „New York Times“. Dass die Wissenschaftler vom Imperial College London nun das Tool online gestellt haben, mit dem US-Bürger und Menschen aus Großbritannien überprüfen können, wie wahrscheinlich ihre eigenen Daten demaskiert werden können, sei für die Forscher „ein schwieriger Schritt“ gewesen, heißt es im NYT-Bericht. Doch es müsse sich in der Praxis etwas ändern, warnen die Forscher.

Strengere Kontrolle

Die Wissenschaftler sind nicht die ersten, die zur Deanonymisierung von Daten geforscht haben. Im globalen Projekt der 1.000 Genome wurde etwa das Erbgut von 1.092 Menschen aus allen Kontinenten sequenziert, auf das jeder zugreifen kann. Genetikern ist es dann allerdings gelungen, Personen anhand ihrer DNA und öffentlich verfügbaren Informationen zu identifizieren. Daraufhin wurden einige Metadaten wie das Alter aus den öffentlich zugänglichen Daten entfernt.

Den Zugang zu bestimmten Daten durch Kontrolle zu limitieren, ist auch ein Ansatz, den die Forscher des Imperial College London für bestimmte Bereiche als für sinnvoll erachten. Im Medizinbereich mache es etwa Sinn, mehr Daten aufzuheben als unbedingt notwendig, aber den Zugang strikt zu regeln – entweder physisch oder übers Netz auch aus der Ferne. Klare Spielregeln seien hier entscheidend, heißt es.