العودة إلى البيانات المفتوحة
معالجة اللغات واللغات
Darija Open Dataset (DODa)
نبذة
DODa هي أكبر مجموعة بيانات مفتوحة المصدر للترجمة من الدارجة إلى الإنجليزية، مستضافة على GitHub تحت رخصة CC BY-NC 4.0. تحتوي على أكثر من 1300 اسم و1000 فعل و45,000 جملة وأكثر من 100,000 مدخل إجمالاً.
https://darija-open-dataset.github.io
زيارة الموقعفي نفس الفئة
Goud-sum (HuggingFace) — Darija Summarization Dataset
158 ألف مقالة + عناوين من موقع Goud.ma — مجموعة بيانات تلخيص نصوص بالدارجة/العربية الفصحى
MA_Open_Datasets — Goud.ma
مقالات Goud الإخبارية بصيغة CSV — توزيع بديل لبيانات Goud
MA_Open_Datasets — LeMatin
مقالات جريدة Le Matin مصنفة حسب الفئة — وطن، اقتصاد، ثقافة، رياضة
MA_Open_Datasets — MoroccoWorldNews
مجموعة بيانات مقالات إخبارية من MoroccoWorldNews