يحتوي هذا المستودع على التمارين والأمثلة العملية لورشة العمل "استخراج ومعالجة النصوص من الوثائق العربية". تهدف هذه الورشة إلى تعزيز مهارات المشاركين في استخراج النصوص من الوثائق العربية باستخدام تقنيات التعرف الضوئي على الحروف (OCR)، وكذلك معالجة هذه النصوص باستخدام تقنيات معالجة اللغات الطبيعية والنماذج اللغوية الكبيرة (LLMs). سيتعلم المشاركون كيفية استخدام أنماط تصميم LLMs مثل التلخيص والأسئلة والأجوبة وغيرها على النصوص المستخرجة.
- تقنيات التعرف الضوئي على الحروف (OCR) للغة العربية
- تحديات استخراج النصوص من الوثائق العربية المختلفة
- أدوات وبرمجيات مفيدة لاستخراج النصوص العربية
- تنظيف وتهيئة النصوص العربية المستخرجة
- تقنيات التحليل الصرفي والنحوي للنصوص العربية
- استخدام النماذج اللغوية الكبيرة (LLMs) لمعالجة النصوص العربية
- استخراج الكلمات المفتاحية والمواضيع الرئيسية
- تصنيف النصوص وتحليل المشاعر في اللغة العربية
يخضع هذا المشروع لترخيص MIT License.