Wiener Firma feiert Durchbruch bei Spracherkennung

18.01.2021

Wenn mehrere Leute sprechen, tun sich Sprachassistenten und Aufnahmegeräte schwer. Eine Wiener Firma hat das Problem gelöst.

Dieser Artikel ist älter als ein Jahr!

„Hey Siri! Hey Google! Wie wird das Wetter heute?“ Moderne Sprachassistenten sind aus unserem Leben nicht mehr wegzudenken. So sinnfrei manche Antworten der digitalen Diener von Apple, Google oder Amazon ausfallen, eines ist allen gemein: Um überhaupt auf uns reagieren zu können, müssen sie zuerst unsere Sprache erkennen und diese in maschinenlesbaren Text umwandeln. Diese Fähigkeit kann auch verwendet werden, um dem Handy oder anderen Geräten Nachrichten, E-Mails oder Dokumente zu diktieren.

Enorme Fortschritte

Das klappt mittlerweile erstaunlich gut, wenn man bedenkt, dass Spracherkennung bis vor zehn Jahren praktisch nur funktionierte, wenn man das System auf die eigene Stimme trainierte. Die maschinelle Transkription war lange Zeit zudem auf einzelne Begriffe eines eng vordefinierten Wortschatzes begrenzt.

„Selbst wir Menschen tun uns schwer, einem Gespräch zu folgen. Das lässt erahnen, wie viel Rechenleistung ein Computer benötigt.“

Dass Computer und in weiterer Folge auch mobile Geräte mit natürlich gesprochenem Text umgehen können, ist überhaupt erst seit zwei Jahrzehnten der Fall. Ein Problem blieb bisher ungelöst. Sprechen mehrere Personen gleichzeitig, ist es für Systeme fast unmöglich, das Gesagte dem jeweiligen Sprecher zuzuordnen und richtig zu transkribieren.

Erfindung aus Wien

Die auf Transkriptionslösungen spezialisierte Wiener Firma Speech Processing Solutions will dies mit einem Aufnahmegerät namens SmartMike lösen, das unter der Philips-Marke vertrieben wird. Es ist mit mehreren Mikrofonen und künstlicher Intelligenz ausgestattet und kann so eine natürliche Gesprächssituation mit zwei Sprechern in Text umwandeln.

„Selbst wir Menschen tun uns schwer, einem Gespräch mit zwei Teilnehmern zu folgen, wenn überlappend oder parallel gesprochen wird. Die Frequenzbereiche unterschiedlicher Stimmen liegen oft nahe beisammen, dazu kommen meist störende Umgebungsgeräusche“, sagt Wilfried Schaffner, technischer Leiter von Speech Processing Solutions. „Das lässt erahnen, wie viel Rechenleistung ein Computer benötigt.“

Saubere Trennung

Das Problem sei technisch gesehen nicht die Spracherkennung an sich, also die Umwandlung gesprochener Wörter in Text, sondern die saubere Trennung der beiden Sprachquellen. „Dabei gibt es zwei Ansätze. Entweder man isoliert die Sprecher über eigene Mikrofone oder verwendet künstliche Intelligenz, um die unterschiedlichen Sprachfrequenzen zu erkennen und zu trennen. Beide Varianten für sich waren bisher allerdings wenig zufriedenstellend“, sagt Schaffner im futurezone-Interview.

Bei der in Wien entwickelten Lösung werden die beiden Strategien kombiniert. Die an beiden Enden des Diktiergeräts angebrachten Mikrofone erkennen software-unterstützt, aus welcher Richtung gesprochen wird und können so die Signale trennen und verarbeiten. Das Gerät muss dabei nicht genau zwischen den Sprechern platziert sein, sondern kann auch auf einem Tisch an der Seite liegen. Je hochwertiger die Mikrofone, desto leichter würden sich die System bei der fehlerfreien Erkennung der gesagten Wörter und Sätze tun, erklären die Entwickler.

Wir würden hier gerne ein Youtube Video zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Youtube zu.

Ärzte und Juristen

Eingesetzt werden soll die Lösung vor allem von Anwälten, aber auch Ärzten, bei denen Philips Speech schon bisher stark vertreten ist. Aber auch für andere Dokumentationszwecke und Interviewsituationen ist das Gerät geeignet, um in Echtzeit eine digitale Abschrift zu erhalten.

Sowohl die Hardware, als auch die Software wird von Speech Processing Solutions in Wien entwickelt. Die Stadt gilt schon seit vielen Jahrzehnten als internationaler Forschungsstandort bei Spracherkennungs- und Aufnahmetechnologien.

Kontext wichtig

Während die maschinenbasierte Transkription von Sprache enorme Fortschritte gemacht hat, gibt es bei der semantischen Interpretation und Verarbeitung des Textes noch viel Luft nach oben. Bei Apple, Google und Amazon geht es darum, dass der Sprachassistent nicht nur die formulierte Frage in Text umwandeln kann, sondern auch den Kontext bzw. die Intention des Sprechers versteht. Nur so kann die Software Informationen und Antworten liefern, die unser Leben tatsächlich erleichtern können.

Wilfried Schaffner, CTO bei Speech Processing Solutions

© Speech Processing Solutions

Aber auch in der Nische, in der die Wiener Firma tätig ist, ergeben sich eine Reihe interessanter Möglichkeiten. „Bei einem Patientengespräch etwa muss der Arzt vieles so formulieren, dass es vom Patienten verstanden wird. In seiner Dokumentation muss der Arzt hingegen medizinische Termini verwenden. Intelligente Systeme der Zukunft könnten aus dem aufgenommenen Gespräch eine fachmedizinische Zusammenfassung ableiten, ohne dass der Arzt alles von vorne wieder beschreiben muss“, gibt Schaffner ein Beispiel.

Lange Tradition in Wien

Abseits von Anwaltskanzleien, Ordinationen und Krankenhäusern werde die Dokumentation von Gesprächen eine wichtigere Rolle spielen, glaubt der technische Leiter von Speech Processing Solutions. Dazu zählen die Versicherungs-, aber auch die Finanzbranche. Damit die transkribierten Gespräche später von Nutzen sind, brauche es Software, die relevante Informationen analog einer Google-Suche auffindbar machen. Dabei könnte künstliche Intelligenz helfen.

Mechanische Diktiergeräte haben eine lange Geschichte, die bis ins 19. Jahrhundert zurückreicht. Selbst Erfindungen wie die Schallplatte gehen indirekt darauf zurück, dass Geschäftsleute nach einer Möglichkeit suchten, ihre Anweisungen und Gespräche im Geschäftsalltag effizienter festhalten und weiterverarbeiten zu können.

Über Speech Processing Solutions

Wien hat in diesem Bereich eine lange Tradition. Bereits 1954 produzierte Philips in Wien Diktiergeräte. Nach diversen Erfindungen – darunter das erste digitale Diktiermikrofon SpeechMike im Jahr 1997 – wurde die Sparte 2012 aus dem niederländischen Konzern herausgelöst.

"Wer schon mal im Silicon Valley gelebt hat, merkt schnell: Die Großen kochen auch nur mit Wasser"

Als eigenständige österreichische Firma ist Speech Processing Solutions aktuell mit Niederlassungen in den USA, Kanada, Australien und diversen europäischen Ländern tätig. Weltweit beschäftigt die Firma, die ihre Produkte weiterhin unter der Philips-Marke vertreibt, 170 Mitarbeiter. Die Diktierlösungen werden von fünf Millionen Nutzern eingesetzt.

„Wer schon mal im Silicon Valley und anderen globalen Technologie-Hubs gelebt und gearbeitet hat, legt gegenüber den Großen in der Branche relativ schnell den Respekt ab. Man erkennt nämlich bald, dass die auch nur mit Wasser kochen“, sagt der 2018 bestellte Technikchef Wilfried Schaffner.

Mehr Mut gefordert

Der ursprünglich in Hagenberg ausgebildete Software Engineer kehrte nach Tätigkeiten in Australien und Kalifornien vor zwei Jahren nach Österreich zurück, wo er die im Ausland gesammelte Unternehmermentalität einfließen lässt. Am Know-how und der Kreativität an den heimischen Universitäten mangle es definitiv nicht.

„Der Unterschied ist: Bei uns sind die Berührungsängste von etablierten Firmen viel größer, einfach einmal etwas auszuprobieren und ein Produkt auf den Markt zu bringen, das vielleicht noch nicht bis ins allerletzte Detail perfektioniert wurde“, erklärt Schaffner.

Mit der Start-up-Kultur, die mittlerweile auch nach Österreich übergeschwappt sei, habe sich hierzulande zwar einiges verändert. „Im Vergleich zu den Unternehmen in den USA könnten wir aber definitiv noch mutiger und selbstbewusster sein.“

Mehr zum Thema

Start-ups

Kommentare

Wir würden hier gerne einen Outbrain Feed zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Outbrain UK Ltd zu.