استكشاف آليات الهلوسة الناتجة عن التوجيه في نماذج الرؤية واللغة

تعد نماذج الرؤية واللغة (Vision-Language Models) من أبرز الابتكارات في عالم الذكاء الاصطناعي، إذ تمكنت هذه النماذج من معالجة كل من النصوص والصور بشكل متكامل. ومع ذلك، تظهر هذه النماذج أحياناً سلوكيات غريبة تُعرف بظاهرة "الهلوسة"، حيث تُفضل الاستجابات النصية على الأدلة البصرية الحقيقية.

تناولت دراسة جديدة تأثير أساليب التوجيه على أداء هذه النماذج في سياق عدّ العناصر المرئية، حيث تم تقديم سيناريو يعتمد على وضع السؤال حول عدد الزهور المائية (waterlilies) في صورة معينة، بينما في الواقع هناك عدد أقل من ذلك. وُجد أن النماذج تميل عادةً إلى تصحيح الفائض في التقديرات عندما يكون عدد العناصر منخفضاً، لكن مع زيادة العدد، يصبح هذا التوجه أكثر وضوحًا، بحيث تتبع النماذج تعليمات التوجيه بغض النظر عن الفجوة في التقديرات.

أجرت الدراسة تحليلاً دقيقاً لثلاثة نماذج مختلفة من VLMs، وأسفرت النتائج عن تحديد مجموعة صغيرة من "رؤوس الانتباه" (attention heads) التي يمكن أن تقلل بشكل كبير من الهلوسة الناتجة عن التوجيه بنسبة لا تقل عن 40% دون الحاجة إلى تدريب إضافي. كما كشفت الأبحاث عن تفاوتات مهمة بين النماذج في كيفية معالجة هذه الهلوسات، حيث تبين أن العوامل المؤثرة في الاستجابة المتعلقة بالتوجيه هي عوامل محددة نمطياً.

تفتح هذه النتائج آفاقًا جديدة لفهم الآليات الداخلية التي تجعل من النماذج أكثر عرضة للهلوسة عند التعامل مع المدخلات النصية، مما يعزز من القدرة على تحسين الأداء وتقليل الأخطاء.

استكشاف آليات الهلوسة الناتجة عن التوجيه في نماذج الرؤية واللغة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!