# ثورة في تقنيات التعرف على الرياضيات: نموذج PINK يكشف عيوب تصحيح نماذج الذكاء الاصطناعي!

تُعتبر عملية تحويل الرياضيات المكتوبة بخط اليد إلى نصوص دقيقة مسألة بالغة الأهمية في تطوير أنظمة الذكاء الاصطناعي التعليمية. ومع ذلك، فإن المعايير الحالية تُظهر قصورًا في تقييم هذه القدرة بشكل صحيح. معظم الدراسات السابقة قد ركزت على التعبيرات ذات السطر الواحد، وتعتمد على مقاييس لغوية مثل **BLEU**، التي لا تستطيع تقييم المنطق الدلالي عبر الحلول الرياضية المكتوبة بخط اليد والمتعددة الأسطر.

في ورقتنا البحثية، نقدم أول دراسة منهجية حول التعرف الضوئي على الأحرف (OCR) للرياضيات المكتوبة بخط اليد متعددة الأسطر، حيث نكشف عن وضع فشل حرج في نماذج **VLMs**: **التصحيح المفرط**. بدلاً من نقل عمل الطالب بدقة، غالبًا ما تقوم هذه النماذج بـ"إصلاح" الأخطاء، مما يخفي الأخطاء التي تهدف التقييمات التعليمية إلى اكتشافها.

لمعالجة هذه المشكلة، نقترح نموذج **PINK** (Penalized INK-based score)، وهو مقياس تقييم دلالي يستفيد من نموذج لغة كبير **LLM** لتقييم الدرجات القائم على المعايير ويعاقب صراحةً على التصحيح المفرط.

تشير تقييماتنا الشاملة لـ15 نموذجًا حديثًا من **VLMs** على مجموعة بيانات **FERMAT** إلى انقلاب كبير في الترتيب بالمقارنة مع BLEU: فقد تم معاقبة نماذج مثل **GPT-4o** بشدة بسبب التصحيح المفرط، بينما يظهر نموذج **Gemini 2.5 Flash** كأكثر النماذج وفاءً في تحويل النصوص. علاوةً على ذلك، توضح الدراسات التي أجراها خبراء بشريين أن **PINK** يتوافق بشكل كبير مع الحكم البشري (55.0% تفضيلًا مقارنة بـ 39.5% لـ BLEU)، مما يوفر إطار تقييم أكثر موثوقية للـOCR الرياضي المكتوب بخط اليد في البيئات التعليمية.

ما رأيك؟


هل تعتقد أن نموذج PINK سيحدث فرقاً في كيفية تقييم الأخطاء في الأبحاث المستقبلية؟ شاركنا برأيك!