© Nuance

Spracherkennung

"Breites Wienerisch ist für Software schwer verständlich"

In den vergangenen Jahren hat sich im Bereich Spracherkennung viel getan. Große Konzerne wie Apple oder Google haben viel Geld in die Technologie investiert und dafür gesorgt, dass die Bedienung von Geräten über Sprachbefehle heute schon weit verbreitet ist. Spielkonsolen, Handys, Fernseher oder Navigationsgeräte hören ihren Nutzern bereits routinemäßig zu. Allerdings verstehen die entsprechenden Anwendungen meist nur vorgefertigte Befehle oder einfache Aussagen. Davon, natürliche Sprache zu verstehen, sind heutige Systeme aber noch weit entfernt. Nuance Communications ist eine der Firmen, die daran arbeitet, die Spracherkennung zu verbessern.

“Durch große TV- oder Smartphone-Anbieter ist das Thema salonfähig geworden, die Akzeptanz steigt und die Technologie hat sich weiter verbreitet”, sagt Gerhard Grobauer, Chefingenieur bei Nuance in Wien. Das bedeutet allerdings auch, dass die Konkurrenz größer wird. Besonders schwierig ist der Markt für mobile Geräte. “Unsere Such- und Diktier-Software für Smartphones und Tablets ist älter als die Apple- und Google-Angebote. Durch die von diesen Konzernen kontrollierte Software-Ökosysteme ist es für uns aber schwer, einen Marktzugang zu finden”, sagt Milanovic. Trotzdem hat Nuance auch hier noch nicht aufgegeben. Das Siri-Pendant von Nuance wurde auf der diesjährigen CES mit Intels neuem Headset präsentiert. Eine deutsche Version soll im zweiten Halbjahr 2013 erscheinen.

Profi-Anwendungen

Das Hauptaugenmerk von Nuance liegt aber auf Profi-Produkten. Das Forschungszentrum in Wien konzentriert sich ausschließlich auf Lösungen für den Bereich Healthcare. Privatkunden kennen Nuance vor allem als Diktiersoftware oder von Spracheingabesystemen in Autos, Fernsehern und anderen Geräten. “Mehr als 75 Millionen Autos sind mit unseren Spracherkennungs-Systemen ausgestattet. Wir arbeiten zudem mit Partnern wie Canon,BMW, Xerox oder Disney”, sagt Vanessa Richter von Nuance gegenüber der futurezone.

Die grundlegenden Herausforderungen für Spracherkennungs-Programme sind sich in Prinzip ähnlich, egal ob es sich um Profi- oder Heimanwender-Software handelt. “Die Basis ist vergleichbar und muss nur noch für Spezialzwecke angepasst werden. Unsere Software ist deshalb Plattform-unabhängig und funktioniert modular”, so Ljubomir Milanovic, Chef der Forschungsabteilung in Wien.

Ärzte diktieren Befunde

Im medizinischen Bereich werden die Apps vor allem genutzt, um Befunde und Informationen über Patienten zu diktieren. Der Arzt kann den Text anschließend gleich selbst kontrollieren. Die Transkription und Prüfung des Textes durch Dritte fällt damit weg, wodurch Zeit gespart wird. Die Systeme lassen sich zudem mittels Spracheingabe bedienen und die Stimme eines Nutzers kann auch das Passwort ersetzen. Je nach Anforderungen können lokale Lösungen oder Cloud-basierte Ansätze umgesetzt werden. “Bei unseren medizinischen Anwendungen werden aus Datenschutzgründen - zumindest in Europa - lokale Lösungen eingesetzt”, sagt Milanovic.

Nuance bietet auch fertige Bausteine für die Texterkennung an, die in verschiedenen Produkten zum Einsatz kommen. So entstehen unter anderem Anwendungen für Radiologen, Psychologen oder andere Mediziner. Die Anwendungen zeigen etwa Labor-Befunde, Diagnosen und Termine von Patienten an.

Über 70 Sprachen

Die größte Herausforderung für die Nuance-Anwendungen ist das Verstehen von natürlicher Sprache. Hier gibt es noch viele Probleme zu lösen. “Hintergrundgeräusche, Dialekte, Betonungen und unsaubere Aussprache sowie die grundlegende Frage, ob und wo Nutzer überhaupt mit einem Computer sprechen wollen, sind problematisch. Die Vision bleibt gültig, es wird aber noch dauern, bis wir selbstverständlich mit Kaffeemaschinen reden”, fasst Grobauer zusammen.

Die Schwierigkeit bei der Erstellung deutscher Spracherkennungssoftware liegt laut Nuance vor allem in den verschiedenen, oft schwer zu unterscheidenden Wortendungen, bei zusammengesetzten Wörtern und in der Vielzahl der lokalen Idiome. “Romanische Sprachen sind einfacher, besonders schwierig sind Finnisch und Ungarisch. Für Sprachen wie Chinesisch, wo auch die Tonhöhe essenziell ist, brauchen wir zusätzlich komplett neue Software”, sagt Grobauer. Insgesamt stellt Nuance Programme für über 70 Sprachen her.

Maschine lernt Dialekt

Für die Erkennung von Dialekten gibt es verschiedene Ansätze. Für einige Idiome gibt es fertige Modelle. Dann wird erkannt, welchen Dialekt ein Nutzer spricht und das entsprechende Programm geladen. Es gibt aber auch lernfähige Systeme, die ausgehend von der Hochsprache durch den User lernen. Das dauert allerdings länger und ist weitaus komplexer zu realisieren. Im Consumer-Bereich kommt eher die erste, bei professionellen Programmen eher die zweite Lösung zum Einsatz.

“Breites Wienerisch ist für eine Software sehr schwierig”, meint Milanovic. Um seine Software zu verbessern, sammelt Nuance Daten von seinen Usern. Das ist ein Mitgrund dafür, dass auch Gratis-Apps angeboten werden. Das Unternehmen sammelt so anonymisierte Daten über die Sprecher. Personalisierte Daten werden angeblich nicht gespeichert. “Wir wissen dann beispielsweise, dass es in einem Land zwei, drei oder vier verschiedene Gruppen von Nutzern gibt, die jeweils andere Dialekte sprechen. Nach und nach entsteht so ein Modell eines Dialekts”, sagt Milanovic

Datenschutz

An andere Unternehmen werden die Daten angeblich nicht weitergegben. Nuance sieht sich als neutraler Technologieprovider. “Samsung ist froh, wenn durch unsere Lösung keine Daten an Google fließen. Wir bieten unsere Technologie verschiedensten Unternehmen an und sind dadurch unverdächtig”, so Grobauer. Im professionellen Bereich besetzt Nuance Nischen, die Konkurrenten wie Microsoft nicht abdecken. “Radiologie-Anwendungen für Rumänien interessieren die meisten Anbieter nicht, wir machen das aber“, so Grobauer.

Die medizinischen Produkte sind in Europa lokal organisiert. Für die Geschwindigkeit macht das aber kaum einen Unterschied. “Eine gewisse Latenz ist inhärent, die Algorithmen brauchen einfach eine gewisse Zeit. Heute sind die Server und Verbindungen aber so stark, dass das kein großes Problem mehr darstellt”, so Milanovic. Rechenintensiv ist Spracherkennung nach wie vor. “Wir nutzen die zur Verfügung stehende Leistung, egal ob beim Arbeitsspeicher, bei Prozessoren oder Grafik-Chips”, erklärt Milanovic. In Zukunft sollen neuronale Netzwerke, die an die Architektur des menschlichen Gehirns angelehnt sind und lernen können, die Software weiter verbessern.

Auch eine Vernetzung der einzelnen Systeme in Krankenhäusern und Arztpraxen würde die Software besser machen, da die Systeme mit jeder Nutzung lernen. Das ist in Europa aus rechtlichen Gründen vieleerorts aber nicht möglich. “Wir würden unsere einzelnen Systeme natürlich gerne vernetzen. Dadurch könnte Personal eingespart werden. In England dürfen Spitäler das. In zehn Jahren werden wir in vielen Ländern Cloud-Systeme haben”, sagt Frederik Brabant, Marketing Direktor für Europa, Nahost und Afrika.

Hat dir der Artikel gefallen? Jetzt teilen!

Markus Keßler

mehr lesen
Markus Keßler

Kommentare