استكشاف آليات الهلوسة الناتجة عن التوجيه في نماذج الرؤية واللغة
🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

استكشاف آليات الهلوسة الناتجة عن التوجيه في نماذج الرؤية واللغة

تسعى عديد من نماذج الرؤية واللغة (VLMs) للاعتماد على نصوص معينة، مما يؤدي إلى حدوث هلوسات تتعلق بكمية العناصر المرئية. تكشف دراسة جديدة عن كيفية معالجة هذه الظاهرة وتأثيرها على دقة النماذج.

تعد نماذج الرؤية واللغة (Vision-Language Models) من أبرز الابتكارات في عالم الذكاء الاصطناعي، إذ تمكنت هذه النماذج من معالجة كل من النصوص والصور بشكل متكامل. ومع ذلك، تظهر هذه النماذج أحياناً سلوكيات غريبة تُعرف بظاهرة "الهلوسة"، حيث تُفضل الاستجابات النصية على الأدلة البصرية الحقيقية.

تناولت دراسة جديدة تأثير أساليب التوجيه على أداء هذه النماذج في سياق عدّ العناصر المرئية، حيث تم تقديم سيناريو يعتمد على وضع السؤال حول عدد الزهور المائية (waterlilies) في صورة معينة، بينما في الواقع هناك عدد أقل من ذلك. وُجد أن النماذج تميل عادةً إلى تصحيح الفائض في التقديرات عندما يكون عدد العناصر منخفضاً، لكن مع زيادة العدد، يصبح هذا التوجه أكثر وضوحًا، بحيث تتبع النماذج تعليمات التوجيه بغض النظر عن الفجوة في التقديرات.

أجرت الدراسة تحليلاً دقيقاً لثلاثة نماذج مختلفة من VLMs، وأسفرت النتائج عن تحديد مجموعة صغيرة من "رؤوس الانتباه" (attention heads) التي يمكن أن تقلل بشكل كبير من الهلوسة الناتجة عن التوجيه بنسبة لا تقل عن 40% دون الحاجة إلى تدريب إضافي. كما كشفت الأبحاث عن تفاوتات مهمة بين النماذج في كيفية معالجة هذه الهلوسات، حيث تبين أن العوامل المؤثرة في الاستجابة المتعلقة بالتوجيه هي عوامل محددة نمطياً.

تفتح هذه النتائج آفاقًا جديدة لفهم الآليات الداخلية التي تجعل من النماذج أكثر عرضة للهلوسة عند التعامل مع المدخلات النصية، مما يعزز من القدرة على تحسين الأداء وتقليل الأخطاء.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة