Mozilla veröffentlicht mit Common Voice 42.000 Stimmen
Common Voice heißt ein Projekt von Mozilla, bei dem es darum geht, den weltweit vielfältigsten Sprachdatensatz zu erstellen. Derzeit umfasst dieser 18 verschiedene Sprachen und 1400 aufgezeichnete Stunden von mehr als 42.000 Personen. Das ist der bisher größte Datensatz menschlicher Stimmen.
Mit diesem Datensatz, der nun frei zugänglich gemacht wurde, können nun Start-ups, Forscher, und alle anderen, die sich für sprachgestützte Technologien interessieren, qualitativ hochwertige, transkribierte Sprachdaten nutzen.
Daten von Freiwilligen
Neben Englisch, Französisch, Deutsch und Mandarin (traditionell) gibt es auch Daten in Walisisch und Kabyle. Ganz neu hinzugefügt wurden Niederländisch, Hakha-Chin, Esperanto, Farsi, Baskisch und Spanisch. Der vollständige Datensatz steht ab sofort auf der Common Voice-Seite zum Download zur Verfügung. Die Daten wurden von Freiwilligen gespendet, die dadurch daran mitwirken, dass Sprach-Engines noch besser trainiert werden können.
Mozilla hat sich zum Ziel gesetzt, Daten für alle Menschen auf der Welt bereitzustellen, die Sprachtechnologien entwickeln und nutzen wollen, weil Wettbewerb und Offenheit Innovationen fördern. Mozilla hat bei dem communitygetriebenen Projekt auch besonders auf Diversität geachtet, etwa durch die gleiche Anzahl von Männern und Frauen. Weitere 70 Sprachen stehen auf der Common-Voice-Seite in den Startlöchern.
Teilnahme möglich
Es ist auch weiterhin möglich, selbst am Projekt teilzunehmen. Menschen, die einen Beitrag leisten möchten, können nicht nur einsehen, wie sich die Aufnahme und Validierung jeder einzelnen Sprache entwickelt, sie bekommen auch verbesserte Bedienhinweise angezeigt, die von Aufzeichnung zu Aufzeichnung variieren. Darüber hinaus gibt es neue Funktionen zum Bestätigen, neu Aufnehmen und Überspringen von Clips.