تمثل نماذج رؤية اللغة (Vision-Language Models - VLMs) تقدمًا بارزًا في مجال الفهم البصري، لكن لا تزال تعاني من مشكلات كبيرة، أبرزها ظاهرة الهلوسة المرتبطة بالتحديد البصري. هذه الظاهرة تعني انتاج نماذج للرؤية للتفاصيل غير الصحيحة أو تحديد كائنات غير موجودة في الصورة.

النماذج الحالية كانت تعتمد سابقًا على تقييمات تعتمد أساسًا على النصوص أو التسميات، مما يعني أنها كانت تركز فقط على تطابق القناع المتوقع مع التسمية المحددة، متجاهلة البصمة المكانية وشدة الهلوسة. ولهذا قامت مجموعة من الباحثين بتحديد واستكشاف مشكلة تُعرف بـ "الاستدلال التقسيمي المضاد (Counterfactual Segmentation Reasoning – CSR)"، حيث يجب على النموذج تقسيم الكائن المرجعي في الصورة الواقعية مع الامتناع عن قيام نفس الأمر في النسخة المعاكسة لها.

في هذا السياق، تم تطوير المزيد من أدوات التقييم وابتكار مجموعة بيانات جديدة تُعرف بـ "HalluSegBench"، التي تُعد أول معيار موسع لتشخيص الهلوسة اللغوية والبصرية باستخدام قياسات بصرية مضبوطة. علاوة على ذلك، تم تقديم نموذج جديد يُدعى "RobustSeg"، الذي تم تدريبه باستخدام تقنية التكييف المضاد (Counterfactual Fine-Tuning - CFT) لتعليم النموذج متى يجب عليه أن يقوم بالتقسيم ومتى يجب عليه الامتناع عن ذلك.

نتائج التجارب أظهرت أن RobustSeg يقلل الهلوسة بنسبة 30%، مع تحسين أداء التقسيم في مجموعة بيانات FP-RefCOCO(+/g). هذا التطور يعد خطوة هامة نحو تعزيز دقة النماذج في تحليل الصور، ومن المؤكد أنه سيفتح آفاقاً جديدة في مجالات مثل الرؤية الحاسوبية والتفاعل بين الإنسان والآلة.

كيف تعتقد أن هذا التقدم سيؤثر على تطبيقات الذكاء الاصطناعي في حياتنا اليومية؟ شاركونا رأيكم في التعليقات.