العودة إلى البيانات المفتوحة
معالجة اللغات واللغات

Darija-Dataset-Builder — IlyasFardaouix

نبذة

خط أنابيب قابل للتطوير لبناء مجموعات بيانات الدارجة المغربية (Darija) لتدريب نماذج اللغة الكبيرة (LLMs). يوفر أدوات ومكتبات لاستخراج البيانات، ومعالجتها، وتنظيمها لتدريب نماذج اللغة على الدارجة المغربية.

https://github.com/IlyasFardaouix/darija-dataset-builder
زيارة الموقع