عندما تتجاوز العبارات الرؤية: استكشاف هلوسات الأنظمة اللغوية البصرية الكبيرة

على الرغم من التقدم الملحوظ الذي حققته الأنظمة اللغوية البصرية الكبيرة (LVLMs)، إلا أنها لا تزال عرضة للهلوسة، وهي ظاهرة تتمثل في الإخراجات التي لا ترتبط بالمعلومات البصرية المدخلة. تشير الدراسات السابقة إلى أن هذه الهلاوس قد تنجم عن مجموعة من العوامل مثل قيود البنية البصرية أو هيمنة المكون اللغوي، ولكن يظل نجاح هذه العوامل موضع تساؤل مستمر.

للتعامل مع هذه المشكلة، تم اقتراح أسلوب جديد يُدعى HalluScope، وهو معيار يُستخدم لفهم مدى تأثير العوامل المختلفة في توليد الهلاوس. تشير التحليلات إلى أن هذه الهلاوس تعود بشكل كبير إلى الاعتماد المفرط على المعرفة النصية السابقة والمعرفة الخلفية، خاصة تلك المعلومات التي تُدخل من خلال التعليمات النصية.

لتخفيف الهلاوس الناتجة عن التعليمات النصية، تم تقديم إطار عمل يُعرف بـ HalluVL-DPO يهدف إلى تحسين استجابة الأنظمة اللغوية البصرية الكبيرة لتكون أكثر تقيدًا بالاستجابة المستندة إلى المعلومات البصرية. يعتمد هذا الإطار على تحسين التفضيلات باستخدام مجموعة بيانات تدريبية مُعَدَّة بعناية، مما يساعد النموذج على تفضيل الاستجابات التي تستند إلى إدخالات بصرية بدلاً من الهلاسات.

أثبت النموذج المحسن فعاليته في تقليل أنماط الهلاوس المستهدفة، مع الحفاظ على الأداء أو تحسينه في اختبارات الهلاوس الأخرى وتقييمات القدرة البصرية. ولتشجيع المزيد من البحث وإعادة النسخ، سيتم إصدار معيار التقييم ومجموعة البيانات التدريبية وشفرة البرمجة بشكل علني على الموقع الإلكتروني الرسمي الخاص بالمشروع.

عندما تتجاوز العبارات الرؤية: استكشاف هلوسات الأنظمة اللغوية البصرية الكبيرة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!