في عالم الذكاء الاصطناعي، تحتل نماذج رؤية-لغة (Vision-Language Models) مكانة مهمة، إذ تعتمد الشركات والمطورون على قدرتها على تحسين التفاعل بين النصوص والصور. ومع ذلك، فإن السلوكيات الخاطئة لهذه النماذج قد تكون لها عواقب وخيمة في التطبيقات الواقعية، مما يجعل دراسة هذه السلوكيات أمرًا حيويًا.

تمثل الدراسة الحديثة، التي تم نشرها على منصة arXiv، إطار عمل جديد يحمل اسم "LLM-as-Judge"، والذي يهدف إلى تقييم كيفية تأثير الضغط اللغوي على الخيال الناتج عن هذه النماذج. تتضمن الدراسة مجموعة جديدة تُعرف بـ "Ghost-100"، وهي مجموعة تتكون من 800 صورة تم إنشاؤها بشكل صناعي، موزعة عبر ثماني فئات عبر ثلاث عائلات من المهام، وهي قراءة النصوص غير الواضحة، قراءة الوقت، وغياب الأجسام. وقد صُممت هذه الصور بطبيعة سلبية تضمن عدم وجود الهدف المستفسر عنه، سواء كان غير واضح أو غير متاح.

يتضمن الإطار بروتوكولًا تقييمًا مزدوج المسار: معدل H-Rate، الذي يقيس النسبة المئوية للإجابات التي ينتقل فيها النموذج من الرفض المؤسس إلى الالتزام الإيجابي غير المدعوم، وH-Score الذي يتم تقييمه بواسطة نموذج GPT-4o-mini، والذي يقيم الثقة والدقة في التخيل بمجرد حدوثه، على مقياس من 1 إلى 5.

من خلال تقييم تسعة نماذج مختلفة، أظهرت النتائج أن معدل H-Rate وH-Score ينفصلان بشكل كبير عبر عائلات النماذج المختلفة. كما كشفت الدراسة عن استجابة نماذج معينة لمستويات الضغط اللغوي بطرق نوعية مختلفة، مع وجود أنماط تشير إلى حساسية غير خطية تصل إلى ذروتها عند مستويات ضغط لغوي متوسطة.

تسلط هذه الدراسة الضوء على أهمية فهم كيفية تأثير العوامل اللغوية على أداء نماذج رؤية-لغة، مما يفتح آفاقًا جديدة لتطوير نماذج أكثر دقة وموثوقية. هل تعتقد أن مثل هذه الدراسات ستحدث ثورة في كيفية تعاملنا مع الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!