عين العقل: معيار جديد لفهم القدرات البصرية لنماذج الذكاء الاصطناعي المتعددة الأبعاد

تم الكشف عن معيار 'عين العقل' الذي يقيم القدرات البصرية لنماذج اللغة المتعددة (Multimodal Language Models) من خلال مهام معرفية مستوحاة من اختبارات الذكاء البشري. تظهر نتائج الاختبارات الفجوة الكبيرة بين أداء البشر والذكاء الاصطناعي في التفكير البصري.

في عصر يشهد تطوراً مذهلاً في تكنولوجيا الذكاء الاصطناعي، أُعلن عن معيار جديد يُدعى "عين العقل" (Mind's Eye) يهدف إلى تقييم قدرات البصرية والقدرة على التفكير المكاني لنماذج اللغة المتعددة الأبعاد (Multimodal Large Language Models). تقدم هذه المعيار ثمان مهام معرفية مستوحاة من اختبارات الذكاء الكلاسيكية، مُصنفة تحت تصنيف مميز يُعرف باسم "A-R-T": التجريد (Abstraction)، والعلاقة (Relation)، والتحول (Transformation).

تتضمن هذه المهام فحص العمليات الأساسية للذكاء السائل مثل استنباط الأنماط، ورسم العلاقات التناظرية، والتحولات الذهنية، مما يجعلها تتماشى مع مقاييس الذكاء البشري. تم تقييم مجموعة متنوعة من النماذج، بما في ذلك المغلقة والمفتوحة المصدر، ومقارنة أدائها بأداء البشر.

أظهرت النتائج أن البشر حققوا دقة تصل إلى 80٪، بينما النماذج الأفضل أداءً بقيت تحت 50٪. يكشف تحليل الأخطاء عن نقاط الضعف في توزيع الانتباه البصري، والتلاعب الداخلي في الإدراك، والتجريد الضعيف للمفاهيم البصرية الأساسية.

توضح هذه النتائج أن النماذج الحالية تعاني من محدودية في قدرات التفكير المكاني مقارنة بالبشر، مما يستدعي تطوير أطر تقييم أكثر تعقيدًا وتأصيلاً cognitively grounded. هل أنت متحمس لمعرفة كيف سيؤثر هذا التطور على مستقبل الذكاء الاصطناعي؟

جاري تحميل التفاعلات...

عين العقل: معيار جديد لفهم القدرات البصرية لنماذج الذكاء الاصطناعي المتعددة الأبعاد

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!