في عصر يشهد تطوراً مذهلاً في تكنولوجيا الذكاء الاصطناعي، أُعلن عن معيار جديد يُدعى "عين العقل" (Mind's Eye) يهدف إلى تقييم قدرات البصرية والقدرة على التفكير المكاني لنماذج اللغة المتعددة الأبعاد (Multimodal Large Language Models). تقدم هذه المعيار ثمان مهام معرفية مستوحاة من اختبارات الذكاء الكلاسيكية، مُصنفة تحت تصنيف مميز يُعرف باسم "A-R-T": التجريد (Abstraction)، والعلاقة (Relation)، والتحول (Transformation).

تتضمن هذه المهام فحص العمليات الأساسية للذكاء السائل مثل استنباط الأنماط، ورسم العلاقات التناظرية، والتحولات الذهنية، مما يجعلها تتماشى مع مقاييس الذكاء البشري. تم تقييم مجموعة متنوعة من النماذج، بما في ذلك المغلقة والمفتوحة المصدر، ومقارنة أدائها بأداء البشر.

أظهرت النتائج أن البشر حققوا دقة تصل إلى 80٪، بينما النماذج الأفضل أداءً بقيت تحت 50٪. يكشف تحليل الأخطاء عن نقاط الضعف في توزيع الانتباه البصري، والتلاعب الداخلي في الإدراك، والتجريد الضعيف للمفاهيم البصرية الأساسية.

توضح هذه النتائج أن النماذج الحالية تعاني من محدودية في قدرات التفكير المكاني مقارنة بالبشر، مما يستدعي تطوير أطر تقييم أكثر تعقيدًا وتأصيلاً cognitively grounded. هل أنت متحمس لمعرفة كيف سيؤثر هذا التطور على مستقبل الذكاء الاصطناعي؟