Mitmachmöglichkeit 16.11.2022, 09:41 Uhr

Common Voice: Sätze sammeln, überprüfen und Stimme spenden – so gehts

Hochdeutsch ist mittlerweile verfügbar, doch bei Schweizer Dialekten gibts noch viel Potenzial.
(Quelle: Mozilla)
Seit mehreren Jahren sammelt Mozilla Sprach-Samples von freiwilligen Teilnehmern für sein Open-Source-Projekt «Common Voice» zum Aufbau einer frei verfügbaren Sprachdatenbank. Common Voice ist ein Open-Source-Sprachdatensatz, der durch Stimmen freiwilliger Mitwirkender auf der ganzen Welt geschaffen wird. Mittlerweile haben fast eine halbe Million Menschen Sätze geteilt, sie laut vorgelesen sowie die Stimmaufzeichnungen von anderen Personen validiert. Derzeit besteht Common Voice aus mehr als 80 sogenannten Gemeinschaften.

Der Ablauf

Jemand bittet auf der Webseite darum, eine Sprache hinzuzufügen. Der Webseiten-Text wird in diese Sprache übersetzt. Dann werden Sätze gesammelt, damit Menschen diese anschliessend laut vorlesen können. In einem weiteren Schritt wird die Common-Voice-Webseite in dieser Sprache veröffentlicht. Erst dann können Menschen ihre Stimme spenden. Andere Freiwillige validieren diese Sprachclips. Mozilla veröffentlicht den Datensatz alle drei Monate.

Sprache und Akzent

Beim Open-Source-Projekt gibt es zwei Kategorien: Sprache und Akzent. Communitys können die Webseite lokalisieren und Sprachdaten für einen komplett neuen Sprachdatensatz sammeln. Alternativ kann man via Github Akzente für eine bestehende Sprache vorschlagen.
Wie Sie beim Open-Source-Projekt mitmachen, erfahren Sie auf der nächsten Seite.




Das könnte Sie auch interessieren