في عالم الذكاء الاصطناعي، تزداد الاعتمادية على نماذج اللغات الكبيرة المتعددة الوسائط (Multimodal Large Language Models - MLLMs) كأدوات تقييم تلقائية، وهو ما يعرف بنموذج MLLM-as-a-Judge. ولكن هل تعتبر هذه النماذج موثوقة حقًا؟

تكشف دراسة حديثة عن أن العديد من أنظمة MLLM التي تستخدم كقضاة تُظهر ضعفًا في دمج المؤشرات البصرية أو النصية الأساسية مما يؤدي إلى تقييمات غير موثوقة خاصة عندما تكون الأدلة ناقصة أو غير متسقة. كما بينت الاختبارات أن هذه النماذج تعاني من عدم الاستقرار في ظل تغييرات غير ذات صلة بالموضوع.

لمعالجة هذه القضية، تم تعريف مفهوم "التحيز التركيبي" (Compositional Bias) في أنظمة MLLM-as-a-Judge، وتم تقديم معيار MM-JudgeBias كوسيلة فعالة لتقييم هذا التحليل. يقدم MM-JudgeBias تحويرات منضبطة عبر الاستعلامات (Query) والصور (Image) والاستجابات (Response)، مما يتيح تقييم سلوك النموذج من خلال مقاييس تكملية: "انحراف التحيُّز" (Bias-Deviation - BD) لقياس الحساسية و"امتثال التحيُّز" (Bias-Conformity - BC) للاستقرار.

وتتضمن مجموعة البيانات أكثر من 1,800 عينة متعددة الوسائط مصنفة بدقة، مأخوذة من 29 مجموعة مرجعية، مما يمكّن من تشخيص أنواع التحيُّز التسعة بدقة في مجالات ومهمات متنوعة. وكشفت التجارب على 26 نموذجًا متميزًا لـ MLLMs عن إهمال منهجي لبعض الوسائط ونزعات تقييم غير متكافئة، مما يضع ضرورة تطوير قضاة أكثر موثوقية في المستقبل.

في هذا السياق، تظل التساؤلات مطروحة حول الشفافية والموثوقية في تقييم الأنظمة الذكية. هل يعتمد الباحثون والمستخدمون بشكل مفرط على هذه النماذج كأدوات تقييم؟ كيف يمكن تعزيز موثوقيتها وتحسين أداءها؟