العودة إلى البيانات المفتوحة
معالجة اللغات واللغات
DarNERcorp — Named Entity Recognition in Moroccan Darija
نبذة
DarNERcorp مجموعة نصوص موسومة يدوياً لـ NER (التعرف على الكيانات المسماة) تضم 65,905 رمزاً بالدارجة المغربية. تشمل: أشخاص، أماكن، مؤسسات، تاريخ/وقت، وأخرى. متاحة على Mendeley Data (الإصدار 4). نُشرت 2023.
https://data.mendeley.com/datasets/286sss4k9v/4
زيارة الموقعفي نفس الفئة
Goud-sum (HuggingFace) — Darija Summarization Dataset
158 ألف مقالة + عناوين من موقع Goud.ma — مجموعة بيانات تلخيص نصوص بالدارجة/العربية الفصحى
Darija Open Dataset (DODa)
أكثر من 100 ألف مدخل للترجمة من الدارجة إلى الإنجليزية — أكبر مجموعة بيانات مفتوحة المصدر للدارجة
MA_Open_Datasets — Goud.ma
مقالات Goud الإخبارية بصيغة CSV — توزيع بديل لبيانات Goud
MA_Open_Datasets — LeMatin
مقالات جريدة Le Matin مصنفة حسب الفئة — وطن، اقتصاد، ثقافة، رياضة