Retour aux données ouvertes
NLP & Langues
DVoice — Moroccan Darija ASR Dataset
À Propos
DVoice est un dataset open source pour la Reconnaissance Automatique de la Parole (ASR) en arabe dialectal marocain (Darija). Contient des enregistrements vocaux et leurs transcriptions textuelles. 2392 fichiers d'entraînement et 600 de test. Publié par AIOXLABS, référence Zenodo 2021.
https://github.com/AIOXLABS/DVoice
Visiter le siteDans la même catégorie
Goud-sum (HuggingFace) — Darija Summarization Dataset
158k articles + headlines from Goud.ma — Darija/MSA text summarization dataset
Darija Open Dataset (DODa)
100k+ entries darija↔English — largest open source Darija translation dataset
MA_Open_Datasets — Goud.ma
Goud news articles in CSV format — alternative distribution of Goud data
MA_Open_Datasets — LeMatin
Le Matin newspaper articles by category — nation, économie, culture, sport