في عالم مليء بالتقنيات الحديثة، تُعد عملية رقمنة الأدب الكلاسيكي السنسكريتي (Sanskrit) أمراً معقداً للغاية. وذلك بسبب نقص الموارد المشروحة، وخاصةً فيما يتعلق بالتعرف على الكيانات المسماة (Named Entity Recognition - NER). في هذا السياق، جاء مشروع **ناماه** ليظل تجربةً رائدة.
ما هي ناماه؟
**ناماه** هي مجموعة بيانات تعدّ بمثابة معيار فضي عالي الجودة لتعرف الكيانات باللغة السنسكريتية، حيث تحتوي على حوالي **102,942** جملة. تم تطوير هذه المجموعة بتقنية مبتكرة تجمع بين استخراج الكيانات من قاعدة بيانات **DBpedia** وعمليات النموذج الهجين ذات الـ **24 مليار** معاملة، مما يُنتج بيانات تدريب طبيعية وقابلة للتنوع بشكل صناعي.
منهجية مبتكرة
تم استخدام منهجية تجمع بين تقنيات استخراج البيانات المتقدمة من **DBpedia** وقدرات نموذج الاستدلال الهجين لتوفير بيانات غنية ودقيقة. تكمن أهدافنا في التغلب على الأخطاء الشائعة الناتجة عن الأساليب التقليدية التي تعتمد على نماذج الذكاء الاصطناعي الكبيرة (Large Language Models - LLMs) دون تقديم العمق المطلوب لفهم قواعد اللغة الكلاسيكية.
هذا الجهد يسعى لمعالجة الفجوة في الموارد المتاحة ودعم الباحثين اللغويين والمطورين لتطبيقات قائمة على الذكاء الاصطناعي.
نتائج مثيرة
استخدمنا مجموعة بيانات ناماه لاختبار أداء ثماني بنى نموذجية، بما في ذلك **XLM RoBERTa** ضخمة متعددة اللغات و**IndicBERTv2** ذات الكفاءة العالية. النتائج الأولية توفر رؤى جديدة حول كيفية تحسين دقة التعرف على الكيانات باللغة السنسكريتية.
هل تعتقد أن استخدام تقنيات الذكاء الاصطناعي يمكن أن يحدث تحولاً في مجال اللغة السنسكريتية؟ شاركنا برأيك!
