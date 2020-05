Microsoft forscht seit Jahren an Sprachsteuerung; Amazon und Facebook haben dieses Jahr Firmen aus diesem Bereich aufgekauft. Warum steht Spracherkennung auf einmal so im Zentrum?

Pedro Moreno: Ich selbst finde das eine interessante Entwicklung. Ich forsche seit über zwanzig Jahren an Sprachsystemen. Es gab einen wissenschaftlichen Diskurs und viel Forschung. Bis vor drei Jahren hat sich aber kaum jemand dafür interessiert. Es war ein Nischenthema, von dem niemand so recht glaubte, dass es einen breiten Nutzen hat.

Was hat sich verändert?

Es gab eine radikale Änderung. Als Sprachwissenschaftler könnte ich Ihnen nun von tollen neuen Algorithmen erzählen, die wir erfunden haben oder von wichtigen Fortschritten bei akustischer Modellierung anhand neuronaler Netzwerke. Die Realität ist banaler. Einerseits ist mehr Rechenleistung verfügbar. Andererseits haben wir mehr digitale Daten, die wir analysieren können. Die zwei Faktoren haben dazu geführt, dass die Erkennungsrate deutlich gestiegen ist.

Wie kann man sich das vorstellen?

Wir haben Tausende Computer, mit denen wir Modelle an über 5000 Stunden Audiomaterial erproben. Jeden Tag verarbeiten wir zehn Jahre an Audiomaterial. Das sind riesige Datenmengen. Mit dieser Infrastruktur können wir unsere Software trainieren und weiterentwickeln. Erinnern Sie sich an den Computer in Star Trek, der die Besatzung ganz natürlich versteht? Das ist in greifbarer Nähe. Hinzu kommt, dass Tippen am Smartphone mühsam ist und gesprochene Befehle viel mehr Sinn machen. Je mehr Leute es verwenden, desto schneller erfüllt sich der Traum von einer Maschine, mit der man eine Konversation führen kann.