أطلق الباحثون في معهد ماساتشوستس للتكنولوجيا (MIT) مشروعًا جديدًا يحمل اسم PuzzleWorld، والذي يُعتبر معيارًا مبتكرًا لمواجهة تحديات حل الألغاز متعددة الخطوات. يختلف هذا المشروع عن معايير التفكير التقليدية التي تعتمد على مهام محددة التعليمات والبيئات المقيدة؛ حيث يتطلب PuzzleWorld من المشاركين استكشاف مشكلات غير معلومة من خلال أدلة متعددة الوسائط وتفكير متكرر.

صُمم PuzzleWorld ليحتوي على 667 مشكلة من نوع الألغاز المعقدة، حيث يهدف إلى تقييم قدرة النماذج من خلال التفكير الخطوي (Step-by-step) والإبداع. جميع الألغاز تتضمن معلومات تفصيلية تتعلق بالحل النهائي، وخطوات التفكير، وعلامات مهارات عقلية، مما يتيح تحليل دقيق للأداء وإجراء تقييم شامل.

ورغم تقدم نماذج الأساس (Foundation Models) في العديد من المجالات، إلا أن أدائها في الأوضاع المفتوحة لا يزال بحاجة إلى مزيد من الاختبار. أظهرت الدراسات أن أفضل نماذج الذكاء الاصطناعي لم تحقق سوى 18% من دقة الحلول النهائية، مما يعكس الحاجة إلى تحسين الأداء.

كما أشار فريق البحث إلى أن التحسين من خلال إعادة تدريب نموذج صغير على خطوات التفكير قد أسهم في زيادة الدقة من 4% إلى 11%. هذا التحسن يمكن أن يؤثر بشكل إيجابي على مهام التفكير البصري في المستقبل.

وعبر تحليل الأخطاء، تم اكتشاف أن النماذج الحالية تفتقر إلى التفكير العميق، ويبدو أنها محصورة في قيود الاستنتاجات القائمة على اللغة. كما أنها تحتاج إلى تطوير قدرات الرسم التي تعتبر ضرورية للتفكير المرئي والمكاني.

تم نشر PuzzleWorld على GitHub لدعم الأبحاث المستقبلية في بناء أنظمة تفكير أكثر عمومية وإبداعًا.

الجميع مدعو لاستكشاف هذا المشروع الجديد والمساهمة في تطوير معايير التفكير الإبداعي في الذكاء الاصطناعي. ما آراؤكم حول هذا التطور؟ شاركونا في التعليقات!