تقدم الأبحاث في مجال الذكاء الاصطناعي تطورات متسارعة، حيث يظهر نموذج اللغة (Language Model) قدرة مذهلة على التفوق في الاختبارات الرياضية. لكن، يبقى السؤال: هل تعكس هذه القدرات تفكيرًا رياضيًا حقيقياً أم مجرد تطابق إحصائي مع أنماط تعلمت عبر فهم الصياغة الرسمية؟

يعتمد الكثير من التقييمات الحالية على أزمات رمزية مستندة إلى مفاهيم رياضية قائمة، ما يحد من إمكانية معرفة مدى قدرة النماذج على بناء مفاهيم مجردة من الأسس. لهذا السبب، تم اقتراح اختبار 'Math Takes Two'، وهو معيار جديد يهدف إلى تقييم ظهور التفكير الرياضي من خلال التواصل.

المثير في هذا الاختبار هو فرضية أنه تم تطور الإدراك الرياضي لدينا كإنسان جنباً إلى جنب مع الحاجة للتواصل الدقيق. يختبر هذا المعايير ما إذا كان بإمكان وكيلين، بدون معرفة رياضية سابقة، تطوير بروتوكول رمزي مشترك لحل مهمة مرئية قائمة، حيث يسهل استخدام نظام رقمي الاستخراج.

على عكس العديد من مجموعات البيانات الحالية، يتجنب هذا الاختبار استخدام لغة رياضية محددة مسبقًا، ويشترط على الوكلاء اكتشاف البنية والدلالات الخفية من الصفر. وبالتالي، يوفر اختبار 'Math Takes Two' عدسة جديدة لتطوير وتقييم النماذج التي تمتلك قدرات ناشئة في التفكير الرقمي.

هل سيفتح هذا الاختبار آفاقًا جديدة لفهم كيفية تفكير الآلات رياضيًا؟ ما رأيكم في تأثير هذا الابتكار على مستقبل الذكاء الاصطناعي؟ شاركونا في التعليقات!