Retour aux données ouvertes
NLP & Langues
QADI — QCRI Arabic Dialect Identification
À Propos
QADI (QCRI Arabic Dialect Identification) : dataset de 540 000 tweets pour identifier les dialectes arabes, couvrant les grandes régions dont le Maghreb (Maroc inclus), le Levant, l'Égypte et le Golfe. Publié par le Qatar Computing Research Institute (QCRI) en 2020.
https://github.com/qcri/QADI
Visiter le siteDans la même catégorie
Goud-sum (HuggingFace) — Darija Summarization Dataset
158k articles + headlines from Goud.ma — Darija/MSA text summarization dataset
Darija Open Dataset (DODa)
100k+ entries darija↔English — largest open source Darija translation dataset
MA_Open_Datasets — Goud.ma
Goud news articles in CSV format — alternative distribution of Goud data
MA_Open_Datasets — LeMatin
Le Matin newspaper articles by category — nation, économie, culture, sport