على الرغم من التقدم الملحوظ الذي حققته الأنظمة اللغوية البصرية الكبيرة (LVLMs)، إلا أنها لا تزال عرضة للهلوسة، وهي ظاهرة تتمثل في الإخراجات التي لا ترتبط بالمعلومات البصرية المدخلة. تشير الدراسات السابقة إلى أن هذه الهلاوس قد تنجم عن مجموعة من العوامل مثل قيود البنية البصرية أو هيمنة المكون اللغوي، ولكن يظل نجاح هذه العوامل موضع تساؤل مستمر.
للتعامل مع هذه المشكلة، تم اقتراح أسلوب جديد يُدعى HalluScope، وهو معيار يُستخدم لفهم مدى تأثير العوامل المختلفة في توليد الهلاوس. تشير التحليلات إلى أن هذه الهلاوس تعود بشكل كبير إلى الاعتماد المفرط على المعرفة النصية السابقة والمعرفة الخلفية، خاصة تلك المعلومات التي تُدخل من خلال التعليمات النصية.
لتخفيف الهلاوس الناتجة عن التعليمات النصية، تم تقديم إطار عمل يُعرف بـ HalluVL-DPO يهدف إلى تحسين استجابة الأنظمة اللغوية البصرية الكبيرة لتكون أكثر تقيدًا بالاستجابة المستندة إلى المعلومات البصرية. يعتمد هذا الإطار على تحسين التفضيلات باستخدام مجموعة بيانات تدريبية مُعَدَّة بعناية، مما يساعد النموذج على تفضيل الاستجابات التي تستند إلى إدخالات بصرية بدلاً من الهلاسات.
أثبت النموذج المحسن فعاليته في تقليل أنماط الهلاوس المستهدفة، مع الحفاظ على الأداء أو تحسينه في اختبارات الهلاوس الأخرى وتقييمات القدرة البصرية. ولتشجيع المزيد من البحث وإعادة النسخ، سيتم إصدار معيار التقييم ومجموعة البيانات التدريبية وشفرة البرمجة بشكل علني على الموقع الإلكتروني الرسمي الخاص بالمشروع.
عندما تتجاوز العبارات الرؤية: استكشاف هلوسات الأنظمة اللغوية البصرية الكبيرة
تُظهر الأنظمة اللغوية البصرية الكبيرة (LVLMs) تقدمًا مذهلاً، لكنها تعاني من مشكلة الهلاوس التي تؤثر على دقتها. تكشف الأبحاث الجديدة عن أساليب لتحسين استجابة هذه النماذج وتخفيف الهلاوس الناتجة عن التعليمات النصية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
