في خطوة رائدة نحو تعزيز فهم الذكاء الاصطناعي في مجالات متعددة، تم الإعلان عن مشروع IndiaFinBench، والذي يعتبر المعيار الأول من نوعه المتاح للجمهور لتقييم أداء نماذج اللغة الكبيرة (Large Language Models) في النصوص التنظيمية المالية الهندية. هذه المبادرة تلقي الضوء على الفجوة الموجودة في المعايير المالية الحالية، التي تركزت بالكامل على النصوص الغربية مثل تقارير لجنة الأوراق المالية والبورصات الأمريكية وتقارير الأرباح باللغة الإنجليزية.

يتكون IndiaFinBench من 406 زوج من الأسئلة والأجوبة التي تم تصنيفها من قبل خبراء، مستمدة من 192 وثيقة نشرت من قبل هيئة الأوراق المالية والبورصات الهندية (SEBI) والبنك الاحتياطي الهندي (RBI). يغطي المشروع أربعة أنواع من المهام، بما في ذلك تفسير القوانين التنظيمية، والقياس العددي، واكتشاف التناقضات، والتفكير الزمني.

تمت مراجعة جودة هذه التصنيفات من خلال اختبار ثانوي يقوم على النماذج، حيث حقق معدل تواصل عالٍ كما تم تقييمه بواسطة 60 معلمًا بشريًا. تم اختبار إثني عشر نموذجًا في ظل ظروف عدم وجود بيانات مسبقة، حيث تراوحت دقة الأداء من 70.4% لنموذج (Gemma 4 E4B) إلى 89.7% لنموذج (Gemini 2.5 Flash).

للأسف، جميع النماذج تفوقت بشكل ملحوظ على أداء الإنسان غير المتخصص، الذي سجل 60%. أثبتت مهمة القياس العددي أنها الأكثر تفريقاً بين النماذج، مع وجود انتشار يصل إلى 35.9 نقطة مئوية. كما تم استخدام اختبار دلالة الإحصاء لتحديد ثلاث فئات أداء متميزة.

يمكنكم الاطلاع على مجموعة البيانات وكود التقييم وجميع نتائج النموذج عبر زيارة الرابط [IndiaFinBench على GitHub](https://github.com/rajveerpall/IndiaFinBench). ما رأيكم في هذا التطور المثير؟ شاركونا آراءكم في التعليقات!