Nach Virtualisierung, Green IT und Cloud Computing könnte Big Data in diesem Jahr der neue IT-Trendbegriff werden. Speichergigant EMC lässt auf der derzeit stattfindenden EMC World jedenfalls keinen Zweifel daran, dass der Umgang mit riesigen, unstrukturierten Datenmengen ganz oben auf der Unternehmensagenda steht. Aber auch andere IT-Größen wie IBM und Yahoo haben das Potenzial längst erkannt. Denn die Analyse dieser riesigen Datenpools verspricht Geschäfts- und Gewinnoptimierung für Unternehmen.

100-Millionen-Dollar-Analyse

Durch den Einsatz der Greenplum-Analysetools von EMC und das Zusammenführen verschiedener Datensätze habe sich T-Mobile innerhalb weniger Tage einen Einblick im Wert von 100 Millionen Dollar verschaffen können, erklärte EMC-Präsident Pat Gelsinger in seiner Keynote am Montag. Der Konzern fand durch die Analyse der mehreren Hundert Terabyte umfassenden Datensätze heraus, welche Faktoren zu Kundenunzufriedenheit und Vertragskündigungen geführt hatten und welche Gegenmaßnahmen ergriffen werden müssen.

Doch nicht nur die strukturierten Daten, die von Unternehmen nach vordefinierten Parametern in Datenbanken erfasst werden, stellen ab einer gewissen Größe ein Problem dar. Vielmehr handelt es sich bei 90 Prozent der im Netz anfallenden Daten um unstrukturierte, lose Informationen, die nur schwierig in Zusammenhang gebracht und ausgewertet werden können. Doch genau diese 90 Prozent an ungeordnetem Datenmaterial, das von Usern im Netz "produziert" wird, versprechen essenzielle Einblicke in das Kundenverhalten.

Analyse-Technologie Hadoop

Als wichtige Technologie, um derartige Datenpools zu bearbeiten, gilt die von Yahoo als Open Source freigegebene Entwicklung Hadoop. Diese wird neben Yahoo auch von Facebook und Twitter verwendet. Kommerzielle Weiterentwicklungen werden unter anderem von IBM und dem Start-up Cloudera angeboten, letzteres arbeitete bisher eng mit EMC zusammen. Mit der auf der EMC World