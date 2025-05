Am Österreichischen Forschungsinstitut für Artificial Intelligence wird ein Sprachmodell entwickelt, das gesprochene Mundart einer Ortschaft zuordnen kann.

Einem geübten Ohr verrät eine Tirolerin ihre Herkunft vielleicht durch das krachende „kch“, ein Kärtner durch gedehnte Vokale, und ein Wiener mit dem selten gewordenen „Meidlinger L“. Doch wie kann ein Computer die Unterschiede österreichischer Mundart erkennen?

Genau das versuchen Lorenz Gutscher und Michael Pucher derzeit in ihrem Forschungsprojekt „DICLA“ am Österreichischen Forschungsinstitut für Artificial Intelligence (OFAI) zu zeigen. Einerseits arbeiten sie dafür an einem KI-System zur Spracherkennung. Andererseits läuft noch bis Juli ein Schulprojekt, in dem Kinder die Herkunft verschiedener Sprecherinnen und Sprecher schätzen sollen.

Sprache rein, Koordinaten raus

„Spracherkennung“ sei mehrdeutig, erklärt Pucher, der sich seit mehr als 20 Jahren mit digitaler Sprachverarbeitung beschäftigt: „Das kann heißen, ein Modell kann Wörter von gesprochener oder geschriebener Sprache erkennen. In unserem Fall geht es dagegen darum, welche Sprache gesprochen wird.“ KI-Programme, die von selbst ausmachen können, ob z.B. gerade Deutsch oder Englisch zu hören ist, sind schon als kommerzielle Produkte am Markt. Für österreichische Dialekte gibt es so etwas noch nicht, dabei reicht die sprachliche Vielfalt hierzulande vom Alemannischen ganz im Westen bis zu verschiedenen Varietäten des Bairischen im Osten.

➤ Mehr lesen: KI aus Österreich soll besser sein als ChatGPT

„Unsere Anwendung nimmt gesprochene Sprache und gibt als Ergebnis Koordinaten aus. Sie sagt also ‚ich glaube dieser Sprecher oder diese Sprecherin ist aus diesem Ort in Österreich‘“, erläutert Pucher. Wenige Sekunden Audiomaterial seien ausreichend, um einen Dialekt zu klassifizieren. Wer will, kann das Ganze selbst auf der Plattform Hugging Face ausprobieren.

Langfristig könnte der Programmcode des DICLA-Projekts als Open-Source-Modell veröffentlicht werden. Dadurch könnte es z.B. in allgemein verfügbare Sprach-KI-Systeme eingebaut werden und deren Fähigkeiten im Umgang mit Dialekt verbessern: Wenn man eine Tonaufnahme in einer unbekannten Sprache transkribieren wolle, sei das schwierig, sagt Gutscher. Wenn ein Modell die Sprache – oder den Dialekt – jedoch vorab genau bestimmen kann, könne es das Gesprochene auch besser verwerten.

Über 300 Sprecherinnen und Sprecher aus 108 Orten

Gutscher hat als Doktorand die Programmierarbeit im Projekt übernommen. „Wir haben einen Datensatz von vielen verschiedenen österreichischen Dialekten. Und unser Modell versucht dann verschiedene Merkmale zu finden, die diese Dialekte unterscheiden“, erklärt er.

Basis der Dialekterkennungssoftware ist ein bestehendes Modell namens wav2vec 2.0, das er entsprechend angepasst hat. Es wurde bereits mit tausenden Stunden von Audiomaterial trainiert und „lernt“ allein auf Basis von Sprachaufnahmen. Eine Verschriftlichung des Gesprochenen ist nicht nötig. Das sei sehr praktisch, denn einen so großen Datensatz verschiedener Dialektaufnahmen inklusive händischer Transkription gebe es nicht.

„Wir haben unsere Daten von Kolleginnen und Kollegen vom Projekt ‚Deutsch in Österreich‘ in Salzburg. Die haben über 300 Menschen aus 108 Orten in ganz Österreich jeweils etwa 20 Minuten lang aufgenommen“, sagt Gutscher.