في عالم الذكاء الاصطناعي، تبرز الأسئلة حول مدى التفاعل بين تمثيلات السيميائية التي تتعلمها نماذج اللغات (Language Models) من الأشكال السطحية، وتلك المكتسبة من الأدلة المتجذرة. في هذا السياق، قامت دراسة جديدة بالتحقيق في كيفية استخدام نموذج الرؤية واللغة (Vision-Language Model) للنموذج اللغوي المدرب مسبقًا مع مُشفّر الصور المدرب مسبقًا.

تركز هذه الدراسة على مهمة التنبؤ بالمرادفات العليا (Hypernyms) للأشياء الموجودة في الصور. تم إجراء التجارب في إطار مُخصص حيث تم الحفاظ على ثبات مُشفّر الصور والنموذج اللغوي، مع تعلم التنسيقات الوسيطة فقط. تم تقليل الأدلة المباشرة للمرادفات العليا تدريجياً، واختُبرت قدرة النموذج اللغوي على استعادة هذه المعرفة.

أظهرت النتائج أن النماذج اللغوية التي تمت دراستها يمكنها استعادة المعرفة العامة وتعميمها حتى في أصعب التجارب، حيث لم تتلقَ النماذج أي أدلة حول المرادفات العليا خلال التدريب. تكشف التجارب الإضافية أن هذه التعميمات عبر الأنماط تظل قائمة حتى عند استخدام تخطيطات وصفية مضادة فقط عندما تكون البيانات المضادة متشابهة بصريًا ضمن كل فئة.

تشير هذه النتائج إلى أن التعميم عبر الأنماط في النماذج اللغوية يحدث نتيجةً لتوافق الإدخال غير اللغوي والمعرفة المستمدة من الدلالات اللغوية، وهو ما يعكس التقدم الكبير في مجال الذكاء الاصطناعي وفهمه للعالم من حولنا.