Wenn mehrere Leute sprechen, tun sich Sprachassistenten und Aufnahmegeräte schwer. Eine Wiener Firma hat das Problem gelöst.

„Hey Siri! Hey Google! Wie wird das Wetter heute?“ Moderne Sprachassistenten sind aus unserem Leben nicht mehr wegzudenken. So sinnfrei manche Antworten der digitalen Diener von Apple, Google oder Amazon ausfallen, eines ist allen gemein: Um überhaupt auf uns reagieren zu können, müssen sie zuerst unsere Sprache erkennen und diese in maschinenlesbaren Text umwandeln. Diese Fähigkeit kann auch verwendet werden, um dem Handy oder anderen Geräten Nachrichten, E-Mails oder Dokumente zu diktieren. Enorme Fortschritte Das klappt mittlerweile erstaunlich gut, wenn man bedenkt, dass Spracherkennung bis vor zehn Jahren praktisch nur funktionierte, wenn man das System auf die eigene Stimme trainierte. Die maschinelle Transkription war lange Zeit zudem auf einzelne Begriffe eines eng vordefinierten Wortschatzes begrenzt.

„Selbst wir Menschen tun uns schwer, einem Gespräch zu folgen. Das lässt erahnen, wie viel Rechenleistung ein Computer benötigt.“

Dass Computer und in weiterer Folge auch mobile Geräte mit natürlich gesprochenem Text umgehen können, ist überhaupt erst seit zwei Jahrzehnten der Fall. Ein Problem blieb bisher ungelöst. Sprechen mehrere Personen gleichzeitig, ist es für Systeme fast unmöglich, das Gesagte dem jeweiligen Sprecher zuzuordnen und richtig zu transkribieren. Erfindung aus Wien Die auf Transkriptionslösungen spezialisierte Wiener Firma Speech Processing Solutions will dies mit einem Aufnahmegerät namens SmartMike lösen, das unter der Philips-Marke vertrieben wird. Es ist mit mehreren Mikrofonen und künstlicher Intelligenz ausgestattet und kann so eine natürliche Gesprächssituation mit zwei Sprechern in Text umwandeln.

© Speech Processing Solutions

„Selbst wir Menschen tun uns schwer, einem Gespräch mit zwei Teilnehmern zu folgen, wenn überlappend oder parallel gesprochen wird. Die Frequenzbereiche unterschiedlicher Stimmen liegen oft nahe beisammen, dazu kommen meist störende Umgebungsgeräusche“, sagt Wilfried Schaffner, technischer Leiter von Speech Processing Solutions. „Das lässt erahnen, wie viel Rechenleistung ein Computer benötigt.“ Saubere Trennung Das Problem sei technisch gesehen nicht die Spracherkennung an sich, also die Umwandlung gesprochener Wörter in Text, sondern die saubere Trennung der beiden Sprachquellen. „Dabei gibt es zwei Ansätze. Entweder man isoliert die Sprecher über eigene Mikrofone oder verwendet künstliche Intelligenz, um die unterschiedlichen Sprachfrequenzen zu erkennen und zu trennen. Beide Varianten für sich waren bisher allerdings wenig zufriedenstellend“, sagt Schaffner im futurezone-Interview. Bei der in Wien entwickelten Lösung werden die beiden Strategien kombiniert. Die an beiden Enden des Diktiergeräts angebrachten Mikrofone erkennen software-unterstützt, aus welcher Richtung gesprochen wird und können so die Signale trennen und verarbeiten. Das Gerät muss dabei nicht genau zwischen den Sprechern platziert sein, sondern kann auch auf einem Tisch an der Seite liegen. Je hochwertiger die Mikrofone, desto leichter würden sich die System bei der fehlerfreien Erkennung der gesagten Wörter und Sätze tun, erklären die Entwickler.

Ärzte und Juristen Eingesetzt werden soll die Lösung vor allem von Anwälten, aber auch Ärzten, bei denen Philips Speech schon bisher stark vertreten ist. Aber auch für andere Dokumentationszwecke und Interviewsituationen ist das Gerät geeignet, um in Echtzeit eine digitale Abschrift zu erhalten. Sowohl die Hardware, als auch die Software wird von Speech Processing Solutions in Wien entwickelt. Die Stadt gilt schon seit vielen Jahrzehnten als internationaler Forschungsstandort bei Spracherkennungs- und Aufnahmetechnologien. Kontext wichtig Während die maschinenbasierte Transkription von Sprache enorme Fortschritte gemacht hat, gibt es bei der semantischen Interpretation und Verarbeitung des Textes noch viel Luft nach oben. Bei Apple, Google und Amazon geht es darum, dass der Sprachassistent nicht nur die formulierte Frage in Text umwandeln kann, sondern auch den Kontext bzw. die Intention des Sprechers versteht. Nur so kann die Software Informationen und Antworten liefern, die unser Leben tatsächlich erleichtern können.

Wilfried Schaffner, CTO bei Speech Processing Solutions © Speech Processing Solutions

Aber auch in der Nische, in der die Wiener Firma tätig ist, ergeben sich eine Reihe interessanter Möglichkeiten. „Bei einem Patientengespräch etwa muss der Arzt vieles so formulieren, dass es vom Patienten verstanden wird. In seiner Dokumentation muss der Arzt hingegen medizinische Termini verwenden. Intelligente Systeme der Zukunft könnten aus dem aufgenommenen Gespräch eine fachmedizinische Zusammenfassung ableiten, ohne dass der Arzt alles von vorne wieder beschreiben muss“, gibt Schaffner ein Beispiel. Lange Tradition in Wien Abseits von Anwaltskanzleien, Ordinationen und Krankenhäusern werde die Dokumentation von Gesprächen eine wichtigere Rolle spielen, glaubt der technische Leiter von Speech Processing Solutions. Dazu zählen die Versicherungs-, aber auch die Finanzbranche. Damit die transkribierten Gespräche später von Nutzen sind, brauche es Software, die relevante Informationen analog einer Google-Suche auffindbar machen. Dabei könnte künstliche Intelligenz helfen. Mechanische Diktiergeräte haben eine lange Geschichte, die bis ins 19. Jahrhundert zurückreicht. Selbst Erfindungen wie die Schallplatte gehen indirekt darauf zurück, dass Geschäftsleute nach einer Möglichkeit suchten, ihre Anweisungen und Gespräche im Geschäftsalltag effizienter festhalten und weiterverarbeiten zu können. Über Speech Processing Solutions Wien hat in diesem Bereich eine lange Tradition. Bereits 1954 produzierte Philips in Wien Diktiergeräte. Nach diversen Erfindungen – darunter das erste digitale Diktiermikrofon SpeechMike im Jahr 1997 – wurde die Sparte 2012 aus dem niederländischen Konzern herausgelöst.

"Wer schon mal im Silicon Valley gelebt hat, merkt schnell: Die Großen kochen auch nur mit Wasser"