في العصر الحديث، أصبحت نماذج Vision Transformers (ViTs) هي المعايير المتبعة لفهم الصور. لكن تبين أن هذه النماذج تختلف بشكل ملحوظ عن خصائص الانتباه البشري. هنا، نعرض دراسة مثيرة تفتح آفاق جديدة في هذا المجال.

تتناول الدراسة إمكانية تقليل الفجوة الإدراكية بين الذكاء الاصطناعي والبشر من خلال ضبط أوزان الانتباه الذاتي لنموذج ViT-B/16 من جوجل على خرائط تركيز انتباه البشر. وقد تم استخدام تقنيات متقدمة لعزل تأثير الإشارات المرئية المعبرة عن أهمية الموضوع من إشراف الإنسان العام.

أظهرت النتائج تحسنًا كبيرًا في التوافق عبر خمس مقاييس، وأدت إلى تعزيز ثلاثة انحيازات بشرية رئيسية: إذ اتجه النموذج بعد الضبط إلى تقليل الانحياز الكامن ضد الأجسام الكبيرة تجاه الأجسام الصغيرة، وزيادة تفضيل الحركة، وتقليل عدم اليقين الشديد في الانتباه.

من خلال تحليل بايزي، تم تأكيد أن هذا التوافق الإدراكي لا يأتي على حساب أداء التصنيف الأصلي للنموذج على علامات محددة مثل ImageNet وImageNet-C وObjectNet. بالمقابل، عندما تم تطبيق نفس الإجراء على شبكة عصبية تلافيفية (CNN) وهي ResNet-50، لوحظ تدهور في كل من التوافق والدقة، مما يدل على أن آلية الانتباه الذاتي في ViT فريدة من نوعها في فصل الأولويات المكانية عن منطق التمثيل.

هذه النتائج تبرز أن المباديء المستندة إلى البيولوجيا يمكن أن تكون متأصلة كخاصية طارئة مجانية للاهتمام المتوافق مع البشر، مما يحسن من قابلية تفسير التحولات.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.