في خضم الابتكارات المتسارعة في عالم الذكاء الاصطناعي، تعد نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models) من أبرز التطورات التي تفتح آفاقاً جديدة في كيفية تفاعل الحواسيب مع العوالم البصرية. ومع ذلك، تظل مشكلة الموثوقية في استدلال هذه النماذج تمثل تحدياً أساسياً. تقدم مجموعة بيانات VG-CoT حلاً مبتكراً لهذه المشكلة، حيث تهدف إلى ضمان أن تكون خطوات التفكير في استدلال النموذج مربوطة بشكل واضح بأدلة بصرية حقيقية.

تواجه النماذج الحالية تحديات كبيرة تتمثل في القيود المفروضة على مجموعات البيانات، والتي تتطلب عمليات توصيف يدوية واسعة. هذا، بالإضافة إلى عدم وجود توافق صريح بين عمليات الاستدلال متعددة الخطوات والمناطق الصور المحددة، يعيق القدرة على تقييم موثوقية النماذج بشكل فعّال. لكن مع مجموعة بيانات VG-CoT، يتم ربط كل خطوة من خطوات الاستدلال بأدلة بصرية واقعية باستخدام آلية آلية ثلاثية المراحل.

تبدأ العملية باستخراج الأدلة البصرية على مستوى الكائنات والنصوص بواسطة نماذج الكشف المتطورة، يلي ذلك توليد استدلال مدعوم خطوة بخطوة بواسطة نموذج GPT-4o، وأخيراً يتم تنقيح الربط من خلال عملية كشف مفتوحة مدفوعة بالمبررات. ولتعزيز الفهم الشامل لقدرات النماذج، تم تقديم معيار جديد يقيم استدلالات نماذج LVLM بناءً على ثلاثة أبعاد تكاملية: جودة المبررات، دقة الأجوبة، وملاءمة الاستدلال مع الأجوبة.

وقد أظهرت التجارب على نماذج بارزة مثل LLaVA-1.5 وQwen2-VL تحسنات مستمرة في معظم مؤشرات التقييم، مما يؤكد أن مجموعة بيانات VG-CoT تعزز بفعالية من الاستدلال القائم على الأدلة الموثوقة، مع الحفاظ على بساطة وفعالية إنشاء مجموعات البيانات. بالإضافة إلى ذلك، ستتوفر مجموعة البيانات والشيفرة العامة قريباً لتسهيل المزيد من الأبحاث في هذا المجال الشيق.