Ein Mann mit Hut mit Gamsbart und Ansteckern vor Bergkulisse

Österreich bietet eine große Dialektvielfalt, von alemannisch im Westen bis bairisch im Osten. Mundart, die hier am Ausseer Kirchtag zu hören ist, gehört vermutlich größtenteils zum süd- und mittelbairischen.

© APA/BARBARA GINDL / BARBARA GINDL

Science

Diese KI erkennt euren Dialekt mit 64 Kilometer Genauigkeit

Einem geübten Ohr verrät eine Tirolerin ihre Herkunft vielleicht durch das krachende „kch“, ein Kärtner durch gedehnte Vokale, und ein Wiener mit dem selten gewordenen „Meidlinger L“. Doch wie kann ein Computer die Unterschiede österreichischer Mundart erkennen? 

Genau das versuchen Lorenz Gutscher und Michael Pucher derzeit in ihrem Forschungsprojekt „DICLA“ am Österreichischen Forschungsinstitut für Artificial Intelligence (OFAI) zu zeigen. Einerseits arbeiten sie dafür an einem KI-System zur Spracherkennung. Andererseits läuft noch bis Juli ein Schulprojekt, in dem Kinder die Herkunft verschiedener Sprecherinnen und Sprecher schätzen sollen.

Sprache rein, Koordinaten raus

„Spracherkennung“ sei mehrdeutig, erklärt Pucher, der sich seit mehr als 20 Jahren mit digitaler Sprachverarbeitung beschäftigt: „Das kann heißen, ein Modell kann Wörter von gesprochener oder geschriebener Sprache erkennen. In unserem Fall geht es dagegen darum, welche Sprache gesprochen wird.“ KI-Programme, die von selbst ausmachen können, ob z.B. gerade Deutsch oder Englisch zu hören ist, sind schon als kommerzielle Produkte am Markt. Für österreichische Dialekte gibt es so etwas noch nicht, dabei reicht die sprachliche Vielfalt hierzulande vom Alemannischen ganz im Westen bis zu verschiedenen Varietäten des Bairischen im Osten. 

Mehr lesen: KI aus Österreich soll besser sein als ChatGPT

„Unsere Anwendung nimmt gesprochene Sprache und gibt als Ergebnis Koordinaten aus. Sie sagt also ‚ich glaube dieser Sprecher oder diese Sprecherin ist aus diesem Ort in Österreich‘“, erläutert Pucher. Wenige Sekunden Audiomaterial seien ausreichend, um einen Dialekt zu klassifizieren. Wer will, kann das Ganze selbst auf der Plattform Hugging Face ausprobieren.

Langfristig könnte der Programmcode des DICLA-Projekts als Open-Source-Modell veröffentlicht werden. Dadurch könnte es z.B. in allgemein verfügbare Sprach-KI-Systeme eingebaut werden und deren Fähigkeiten im Umgang mit Dialekt verbessern: Wenn man eine Tonaufnahme in einer unbekannten Sprache transkribieren wolle, sei das schwierig, sagt Gutscher. Wenn ein Modell die Sprache – oder den Dialekt – jedoch vorab genau bestimmen kann, könne es das Gesprochene auch besser verwerten.

Über 300 Sprecherinnen und Sprecher aus 108 Orten

Gutscher hat als Doktorand die Programmierarbeit im Projekt übernommen. „Wir haben einen Datensatz von vielen verschiedenen österreichischen Dialekten. Und unser Modell versucht dann verschiedene Merkmale zu finden, die diese Dialekte unterscheiden“, erklärt er.

Basis der Dialekterkennungssoftware ist ein bestehendes Modell namens wav2vec 2.0, das er entsprechend angepasst hat. Es wurde bereits mit tausenden Stunden von Audiomaterial trainiert und „lernt“ allein auf Basis von Sprachaufnahmen. Eine Verschriftlichung des Gesprochenen ist nicht nötig. Das sei sehr praktisch, denn einen so großen Datensatz verschiedener Dialektaufnahmen inklusive händischer Transkription gebe es nicht.

„Wir haben unsere Daten von Kolleginnen und Kollegen vom Projekt ‚Deutsch in Österreich‘ in Salzburg. Die haben über 300 Menschen aus 108 Orten in ganz Österreich jeweils etwa 20 Minuten lang aufgenommen“, sagt Gutscher.

Österreich-Landkarte mit 108 roten Punkten

Aus den rot markierten Orten stammen die Sprecherinnen und Sprecher, mit denen das Dialekterkennungs-Tool trainiert wurde.

Kein inhaltliches Verständnis

„Tonaufnahmen sind so eine Wellenform, das sind einfach nur Zahlenwerte, die auf die Zeitachse aufgetragen werden. In der Form ist es für Computermodelle noch schwierig, daraus sinnvolle Informationen zu verarbeiten“, erklärt der Doktorand. Das Modell lernt aus solchen Daten von selbst, bessere Repräsentationen zu bilden und darin sprachliche Merkmale zu finden, die die Dialekte unterscheiden.

Mehr lesen: Gruselig menschliche KI im Test: Ich habe mit Miles telefoniert

Wenn ein Mensch versucht, Mundart an klanglichen Eigenheiten zu erkennen, versteht er dabei immer auch, wovon gesprochen wird. Beim KI-System des DICLA-Projekts ist das anders: Auf die Bedeutung geht es überhaupt nicht ein.

64 Kilometer Genauigkeit

„Am Anfang hatten wir das Problem, dass unser Modell nicht die Unterschiede zwischen den Dialekten, sondern Unterschiede in den Stimmen der verschiedenen Sprecherinnen und Sprecher erkannt hat“, sagt Gutscher. Deshalb haben die beiden Forscher einen Trick angewandt: Sie haben die aufgenommenen Stimmen künstlich vervielfältigt und dabei verschiedene Versionen erstellt.

Im abschließenden Test mit 30 echten Sprecherinnen und Sprechern, die das Modell noch nie zuvor gehört hatte, schätzte es deren tatsächliche Herkunft durchschnittlich auf 64 Kilometer genau ein. Das KI-System orientiert sich nicht an Bundesländergrenzen, d.h. einen Sprecher, der eigentlich aus der westlichen Steiermark stammt, lokalisiert es möglicherweise im Osten Salzburgs.

Nächstes Ziel: Erklärbarkeit

Mit Menschen, die eine Mischung verschiedener Dialekte in ihrer Sprache vereinen, z.B. weil sie am Land aufgewachsen sind, aber schon lange in der Großstadt wohnen, tut sich das KI-System jedoch schwer. Er selbst sei ein gutes Beispiel meint Pucher: „Ich komme aus der Steiermark, aber ich rede jetzt nicht mehr so viel im Dialekt. Und deshalb konnte mich das Modell auch nicht so gut zuordnen.“

Mehr lesen: 7 Bereiche, wo KI bereits für große Sprünge sorgt

Es gibt noch eine Herausforderung für die Forscher: „Was wir noch nicht ganz haben, ist, dass das Modell erklären soll, wie es zu seiner Entscheidung gekommen ist“, sagt Pucher. Diese sogenannte Explainability sei allgemein ein wichtiges Thema bei KI, und soll bei ihrer Anwendung noch verbessert werden.

Browser-Game für Schülerinnen und Schüler

Im zweiten Teil des Projekts geht es um Citizen Science, d.h. die Beteiligung der Allgemeinheit an der Wissenschaft. Gutscher hat das Dialekterkennungs-Modell dafür in ein Browser-Game für Schülerinnen und Schüler ab 6 Jahren eingebaut. BeiDialektDetekt bekommen sie zuerst eine kurze Einführung in die verschiedenen Dialektgruppen Österreichs und müssen danach Sprachbeispiele auf einer Landkarte platzieren.

Screenshot DialektDetect mit Österreichkarte verschiedener Dialektgruppen

Im Browser-Game "DialektDetect" bekommen Schülerinnen und Schüler zuallererst einen Überblick über Dialektgruppen in Österreich.

Zu Beginn ist immer auch die richtige Antwort und die Schätzung des KI-Modells zu sehen. „Das ist eine coole Möglichkeit, um zu testen, was kann die KI und was kann man selbst“, sagt Gutscher, der sein Forschungsgebiet Kindern näherbringen will. Es sei wichtig, einen Berührungspunkt mit KI zu bieten, der nicht den einschüchternden Eindruck vermittle, dass es ein „allwissendes Geschöpf“ sei, findet der Forscher. 150 Schülerinnen und Schüler hätten bereits mitgemacht. 

Vergleich zwischen KI, Kindern und Fachleuten

Am Ende wollen Gutscher und Pucher vergleichen, anhand welcher Merkmale die Kinder die Dialekte klassifiziert haben und inwieweit sich das von den Erklärungen ihres Sprachmodells unterscheidet. Auch Sprachwissenschaftlerinnen und Sprachwissenschaftler sollen noch Einschätzungen beisteuern.

Er wird nach Abschluss dieses Projekts mit Forscherinnen und Forschern aus Liechtenstein und Deutschland zusammenarbeiten, um ein KI-System für Dialekte im gesamten deutschsprachigen Raum zu entwickeln: „Damit könnten wir Daten generieren, die Leuten helfen, Dialekte zu lernen.“

Hat dir der Artikel gefallen? Jetzt teilen!

Jana Wiese

interessiert sich besonders für die gesellschaftlichen Auswirkungen von Technologie und Wissenschaft. Mag das offene Web, Podcasts und Kuchen, (food-)bloggt seit 2009.

mehr lesen
Jana Wiese

Kommentare