العودة إلى البيانات المفتوحة
معالجة اللغات واللغات
Goud-sum (HuggingFace) — Darija Summarization Dataset
نبذة
يحتوي Goud-sum على 158,282 زوجًا من المقالات والعناوين المستخرجة من موقع Goud.ma الإخباري. العناوين بالدارجة المغربية، والمقالات بالدارجة أو الفصحى أو خليط بينهما. مقسم إلى: تدريب (139k)، تحقق (9.5k)، اختبار (9.5k). الحجم: 326 ميجابايت.
https://huggingface.co/datasets/Goud/Goud-sum
زيارة الموقعفي نفس الفئة
Darija Open Dataset (DODa)
أكثر من 100 ألف مدخل للترجمة من الدارجة إلى الإنجليزية — أكبر مجموعة بيانات مفتوحة المصدر للدارجة
MA_Open_Datasets — Goud.ma
مقالات Goud الإخبارية بصيغة CSV — توزيع بديل لبيانات Goud
MA_Open_Datasets — LeMatin
مقالات جريدة Le Matin مصنفة حسب الفئة — وطن، اقتصاد، ثقافة، رياضة
MA_Open_Datasets — MoroccoWorldNews
مجموعة بيانات مقالات إخبارية من MoroccoWorldNews