في عالم الذكاء الاصطناعي (AI)، يبقى الجانب المتعلق بالمعرفة الذاتية ومراقبة العمليات العقلية من أقل الجوانب التي تم تقييمها بشكل شامل. ومن هنا تأتي مبادرة MEDLEY-BENCH، معايير جديدة لقياس العمليات المعرفية السلوكية، التي تضع فواصل واضحة بين التفكير المستقل، ومراجعة النفس الخاصة، والتعديل المتأثر اجتماعياً تحت تصادم حقيقي بين النماذج.

تقوم MEDLEY-BENCH بتقييم 35 نموذجًا من 12 عائلة استنادًا إلى 130 حالة غامضة عبر خمسة مجالات، وتقدم درجتين تكميليتين: درجة المعرفة الذاتية (Medley Metacognition Score - MMS) التي تركز على التحسين العاكس، والقدرة الاجتماعية، وكذلك درجة القدرة (Medley Ability Score - MAS) المستندة إلى أربع قدرات معرفية فرعية.

الأبحاث أوضحت انفصالاً واضحًا بين القدرة على التقييم والسيطرة؛ حيث تزداد قدرة التقييم مع زيادة حجم النماذج في أسرها، بينما لا يحدث نفس الشيء في التحكم. وذلك من خلال تحليلات متقدمة على 11 نموذجًا، تم تحديد نمطين سلوكيين: النماذج التي تراجع استجابةً لجودة الحجج، وتلك التي تتبع إحصائيات الإجماع. وفي سياق تصنيف النماذج فيما بينها، تبين أن القدرة على التقييم كانت الأضعف وفقًا لمعاييرها بالنسبة لجميع النماذج الـ 35، مما يُشِير إلى وجود فجوة منهجية بين المعرفة والقدرة التنفيذية.

والجدير بالذكر أنه تم ملاحظة أن النماذج الأصغر والأرخص قد تتساوى مع أو تتفوق على النماذج الأكبر، مما يشير إلى أن الكفاءة المعرفية ليست مجرد مسألة حجم. تشير هذه النتائج إلى أن MEDLEY-BENCH يمكن أن يصبح أداة فعالة لقياس تعديل المعتقدات تحت ضغط اجتماعي، مما يستدعي توجيه التدريب المستقبلي نحو المكافأة للتحديثات المتوازنة بدلاً من التركيز فقط على جودة المخرجات.