مقدمة



يعتبر التخطيط البصري (Visual Planning) أحد العناصر الأساسية في الذكاء البشري، خاصة في المهام التي تتطلب تفكيرًا مكانيًا معقدًا. ومع ذلك، يتم التعامل مع هذا التحدي البصري غالبًا من منظور لفظي في مجال تعلم الآلة (Machine Learning).

في الأبحاث الأخيرة، تم تسليط الضوء على الإخفاقات التي تواجه الأساليب القديمة، مما دفع الباحثين إلى تطوير خيارات جديدة.

مفهوم EAR



في هذا السياق، يظهر نموذج "EAR"، الذى يعتمد على مبدأ "التحرير كعملية تفكير" (Editing-as-Reasoning), حيث يُعيد صياغة التخطيط البصري كتحول صورة من خطوة واحدة.

تمكن هذا النموذج من عزل التفكير الجوهري عن التعرف البصري عبر استخدام الألغاز المجردة كمهام اختبارية، حيث تم تقديم مجموعة بيانات AMAZE، والتي تشمل مشاكل الكلاسيكية مثل المتاهة (Maze) ومسألة الملكة (Queen Problem).

الابتكارات والنتائج



تتميز مجموعة بيانات AMAZE بخصائصها الفريدة التي تسهل التقييم التلقائي للنماذج، سواء كانت النماذج autoregressive أو القائمة على الانتشار (Diffusion-based). تم تقييم أفضل النماذج في السوق، وكان من المفاجئ أن جميعها واجهت صعوبات في إعدادات "عدم التدريب السابق" (Zero-shot Setting).

تأثير النتائج



على الرغم من أن أفضل نموذج يتم تشغيله على أجهزة متطورة قدم أداءً جيدًا، إلا أنه لم يستطع تحقيق الكفاءة التي حققها المحللون البشريون، مما يبرز الفجوة المستمرة في القدرة على التفكير البصري العصبي.

الخاتمة



يعتبر هذا العمل خطوة مثيرة للاهتمام نحو تحسين أداء الذكاء الاصطناعي في تحرير الصور. من الواضح أن هناك مجالاً واسعاً لتطوير الاستراتيجيات الحالية.

**هل تعتقد أن الذكاء الاصطناعي سيتجاوز البشر في التفكير البصري قريبًا؟**