Science
27.11.2014

Social-Media-Studien ist nur bedingt zu trauen

Die Zahl der Studien, die auf über soziale Netzwerke gesammelten Daten basiert, nimmt zu. Die Aussagekraft dieser Erhebungen ist aber oft begrenzt.

Durch soziale Medien lassen sich in kurzer Zeit sehr preiswert große Datenmengen für wissenschaftliche Studien einsammeln. Das hat dazu geführt, dass mittlerweile tausende solcher Erhebungen pro Jahr veröffentlicht werden. Der österreichische Forscher Jürgen Pfeffer von der Carnegie Mellon University und sein Kollege Dave Ruths von der McGill University haben jetzt herausgefunden, dass die Verwendung von Daten aus sozialen Netzwerken zu Verzerrungen führen, die den Wert vieler Studien zweifelhaft erscheinen lassen.

So sind die Nutzerpools der verschiedenen Plattformen schon von Haus aus in verschiedene Richtungen verzerrt. Instagram etwa wird überproportional von 18- bis 29-Jährigen, von Frauen, von Afromamerikanern, von Latinos und von Städtern verwendet. Für Pinterest haben weibliche, 25- bis 34-jährige und wohlhabende Nutzer eine Vorliebe.

Verzerrte Nutzerpools

Damit entsprechen die Nutzer der Plattformen nicht der Gesamtbevölkerung. Wenn das nicht durch statistische Gewichtung behoben wird, sind Aussagen, die auf solchen Stichproben beruhen, nicht auf die Realität ummünzbar. Dazu kommt, dass die Daten, die von den Plattformen herausgegeben werden, nicht notwendigerweise den tatsächlichen Verhältnissen dort entsprechen. Durch proprietäre Algorithmen werden die Informationen gefiltert und nach speziellen Mustern weiterverteilt. So entstehen ebenfalls Verzerrungen.

“Alle Studien, die auf Daten aus sozialen Netzwerken basieren, sind in irgendeiner Art von diesen Problemen betroffen”, erklärt Pfeffer der futurezone. Dazu kommen plattformeigene Probleme. In welchem Maß Twitter als politische Plattform gesehen wird, beeinflusst, was dort geteilt wird. Das kann sich mit der Zeit auch ändern. Einige Plattformen speichern zudem nicht die Rohdaten, sondern bereits veränderte Informationen.

So wird bei Google nicht der tatsächliche Input aufgezeichnet, sondern die Suchbegriffe nachdem Autocomplete tätig geworden ist. Twitter sortiert seine Daten ebenfalls um und entfernt etwa Zusammenhänge zwischen Tweets und Retweets, so dass alle Tweets seiner originalen Quelle zugeordnet wird und nicht seiner Ursache.

Fake-Profile und Spam

Bei allen sozialen Medien gibt es außerdem Spammer, Bots und falsche Profile, die eine Stichprobe ebenfalls verunreinigen. “Sie können 10.000 Twitter Follower für 5 Dollar kaufen, und es gibt hunderte Angebote im Netz, die 10.000e Followe verkaufen. 50 Prozent aller Twitter Accounts, die 2013 angelegt worden sind, waren Anfang 2014 wieder gelöscht. Facebook ist ein wenig teurer, weil Facebook beim Erstellen der Accounts mehr auf echte Personen achtet; hier kosten 2.500 Likes ca. 30 Dollar”, sagt Pfeffer.

Die Accounts von Berühmtheiten, die professionell betreut werden, führen zu ähnlichen Problemen. Ob die Angaben der Nutzer stimmen, etwa ob sie wirklich eine bestimmte Schule besucht haben, ist online ebenfalls nicht für jeden Datensatz überprüfbar.

Die Geschäftsbedingungen der Plattformen verbieten oft das aufbewahren und Speichern von Daten, was dazu führt, dass es keine große Referenzdatenbank gibt, gegen die Daten abgeglichen werden können. “Twitter ist das positive Vorzeigebeispiel, da Twitter zumindest einen Teil seiner Daten Forschern frei zugänglich macht. Facebook ist am anderen Ende des Spektrums, die drohen recht schnell Universitäten mit Klagen, wenn sie rausfinden, dass man ihre Daten sammelt, um damit Forschung zu betreiben”, erklärt Pfeffer.

Nicht alles schlecht

Das ist bei anderen Methoden normalerweise ein üblicher Weg, um Daten zu bewerten. Neue Methoden können auch nicht mit alten verglichen werden. “Ich glaube nicht, dass viele der Probleme neu sind. Probleme ergeben sich, weil die meisten dieser Big Data/Social Media Studien von Nicht-Sozialwissenschaftlern gemacht werden, denen eine gewisse Grundskepsis fehlt. Wenn ich ihnen erzähle, dass ich über 50 Milliarden Tweets auf meinem Server habe, ist das ja an sich schon beeindruckend. Da vergisst man dann oft zu hinterfragen was mir 50 Milliarden Datenpunkte sagen, was ich nicht auch von 1,000 gut ausgewählten erfahren kann”, beschreibt Pfeffer.

Pfeffer und sein Kollege wollen mit ihrer Arbeit nicht pauschal alle Social-Media-Forschungsarbeiten verteufeln, fordern aber neue Methoden und einheitliche Standards. “Jeder weiß heute, dass man keine Wahlen vorhersagen kann, indem man an einem sonnigen Vormittag am Stephansplatz zufällig Menschen nach ihrer Meinung fragt, sondern, dass man das irgendwie anders angehen muss. Wir werden ähnliche qualitätssteigernde Verfahren auch in der Analyse von Social Media Daten in den kommenden Jahren sehen”, so Pfeffer.