Grösster Datensatz menschlicher Stimmen 02.03.2019, 16:39 Uhr

Mozilla erweitert Common-Voice-Datenbank

Mozilla hat sein Common-Voice-Projekt um weitere Datensätze ausgebaut. Das aktuelle Release umfasst über 1.300 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden.
(Quelle: VectorKnight / Shutterstock.com)
Seit Juli 2017 sammelt Mozilla Sprach-Samples von freiwilligen Teilnehmern für sein Open-Source-Projekt Common Voice zum Aufbau einer frei verfügbaren Sprachdatenbank. Jetzt haben die Entwickler Common Voice um weitere Datensätze ausgebaut. Damit umfasst das Projekt nunmehr 1.361 Stunden aufgezeichneter Samples aus 18 verschiedenen Sprachen, die von mehr als 42.000 Mitwirkenden beigetragen wurden. Laut eigenen Angaben ist Common Voice damit der grösste frei verfügbare Datensatz menschlicher Stimmen.
Auf der Common-Voice-Webseite können Freiwillige zum Projekt beitragen.
Quelle: Screenshot / com! professional
Allein die deutschen Samples umfassen 146 Stunden an Material, das von 2.249 Teilnehmern beigetragen wurde. Sämtliche Sprach-Samples stehen auf der Projektwebseite zum kostenlosen Download bereit.

Bessere Webseite soll mehr Daten generieren

Um neue Freiwillige für eine Beteiligung bei Common Voice zu begeistern, hat MozillaMozilla Firefox die Internetseite des Projekts sukzessive weiterentwickelt. Dort stellt der Firefox-Entwickler auch die Tools zur Aufzeichnung der Sprach-Samples bereit. Teilnehmer am Programm können in der aktuellen Version etwa detailliert nachvollziehen, wie sich die Aufnahme und die Validierung jeder einzelnen Sprache entwickeln. Ausserdem ist es nun möglich, ein Konto für das Projekt anzulegen, um Fortschritte und Metriken in mehreren Sprachen  zu verfolgen. Im Account lassen sich auch demografische Profilinformationen hinterlegen, wodurch der freie Datensatz um wertvolle Metainformationen ergänzt wird.

Trotz der Vielzahl an bereits gewonnenen Daten und Erkenntnisse befinden sich sowohl Common Voice als auch DeepSpeech noch in der Entwicklungsphase. Dennoch geht MozillaMozilla Firefox davon aus, dass die Programme bereits in naher Zukunft in konkrete Lösungen einfliessen werden. Bereits jetzt wird etwa die DeepSpeech-Engine von den Open-Source-Sprachassistenten Mycroft und Leon genutzt. Zukünftig soll DeepSpeech aber auch in kleineren Geräten wie Smartphones und In-Car-Systemen eingesetzt werden und so Produktinnovationen innerhalb und ausserhalb von Mozilla vorantreiben.




Das könnte Sie auch interessieren