شهدت النماذج اللغوية المرئية (Vision-Language Models) تقدمًا مذهلاً في تحقيق أداء قوي متعدد الوسائط، إلا أنها لا تزال عرضة لظهور الهلاوس الواقعية، خاصة في المجالات المتخصصة أو الطويلة. مع تقدم التقنية، تم طرح تساؤلات حول قدرة هذه النماذج على رفض الإجابات التي تتجاوز معرفتها.
إطار عمل مبتكر
في خطوة مدهشة، اقترح الباحثون إطارًا منهجيًا لتعزيز قدرة النماذج اللغوية المرئية على رفض الأسئلة غير المعروفة. يتضمن هذا الإطار تجميع مجموعة بيانات محددة للنموذج تُعرف باسم "Visual-Idk" (بمعنى "مرئي-لا أعرف")، حيث يتم اعتماد اختبارات التناسق المتعدد العينات لتمييز الحقائق المعروفة عن المجهولة.
تحسين قابلية الرفض
يتم توجيه النموذج من خلال تحسين إشرافي متبوعًا بعمليتي تحسين معتمدة على التفضيلات مثل (DPO، ORPO)، مما يسهم في تحديد حدود المعرفة بدقة أكبر. أظهرت النتائج على مجموعة بيانات Visual-Idk أن هذه الطريقة عملت على تحسين معدل الصدق (Truthful Rate) من 57.9% إلى 67.3%. ونظرًا لأن هذه النماذج أصبحت أكثر معرفة بحدودها، فإنها لا تحفظ أنماط الرفض فقط بل تدرك فعليًا تلك الحدود.
التعميم على مجالات جديدة
الجدير بالذكر أن الإطار الجديد يمكنه التعميم على مجالات طبية وإدراكية خارج مجموعة البيانات المستخدمة، مما يوفر مسارًا قويًا نحو مساعدات بصرية أكثر موثوقية وحذرًا.
هل تود معرفة المزيد عن كيف يمكن لهذه التطورات أن تحدث ثورة في مجال الذكاء الاصطناعي؟
