تُعتبر نماذج اللغة الضخمة (Large Language Models) من أبرز الابتكارات في عالم الذكاء الاصطناعي، وقد أثرت هذه النماذج بشكل كبير على العديد من المجالات، بما في ذلك استدلال الرياضيات. يعمل هذا المجال على تقييم قدرة النماذج على التفكير المنطقي وحل المشكلات. لكن التقييم التقليدي، الذي يعتمد على مقارنة الرموز الرياضية، قد يظهر حدودًا في فعاليته، حيث لا يستطيع التكيف مع تنوع الأساليب الرياضية وصيغ الحلول المختلفة.

في بحثنا الجديد، نقترح إطارًا متقدمًا يستخدم نماذج اللغة الضخمة لتقييم الأجوبة التي تُولدها النماذج، مما يمكّن من إجراء تقييمات دقيقة عبر تنسيقات رياضية متنوعة. نناقش في دراستنا حالات الفشل التي أظهرتها مقارنات الرموز في إطارين شائعين، وهما Lighteval وSimpleRL، ونعرض كيف يحقق إطارنا الجديد تحسينات واضحة.

هذا التغيير في منهجيات التقييم يُعد خطوة هامة نحو تحسين الأنظمة الذكية والتقدم في حلول المشكلات الرياضية. إذ يُتيح لنا مراقبة الأداء بشكل أكثر دقة، مما يسهم في تطوير نماذج ذكاء اصطناعي فعّالة وفهم أعمق للاستدلال الرياضي.