استكشاف التعلم الموسع عبر الأنماط: كيف تتفاعل نماذج الذكاء الاصطناعي في معالجة النصوص والصور؟

في عالم الذكاء الاصطناعي، تبرز الأسئلة حول مدى التفاعل بين تمثيلات السيميائية التي تتعلمها نماذج اللغات (Language Models) من الأشكال السطحية، وتلك المكتسبة من الأدلة المتجذرة. في هذا السياق، قامت دراسة جديدة بالتحقيق في كيفية استخدام نموذج الرؤية واللغة (Vision-Language Model) للنموذج اللغوي المدرب مسبقًا مع مُشفّر الصور المدرب مسبقًا.

تركز هذه الدراسة على مهمة التنبؤ بالمرادفات العليا (Hypernyms) للأشياء الموجودة في الصور. تم إجراء التجارب في إطار مُخصص حيث تم الحفاظ على ثبات مُشفّر الصور والنموذج اللغوي، مع تعلم التنسيقات الوسيطة فقط. تم تقليل الأدلة المباشرة للمرادفات العليا تدريجياً، واختُبرت قدرة النموذج اللغوي على استعادة هذه المعرفة.

أظهرت النتائج أن النماذج اللغوية التي تمت دراستها يمكنها استعادة المعرفة العامة وتعميمها حتى في أصعب التجارب، حيث لم تتلقَ النماذج أي أدلة حول المرادفات العليا خلال التدريب. تكشف التجارب الإضافية أن هذه التعميمات عبر الأنماط تظل قائمة حتى عند استخدام تخطيطات وصفية مضادة فقط عندما تكون البيانات المضادة متشابهة بصريًا ضمن كل فئة.

تشير هذه النتائج إلى أن التعميم عبر الأنماط في النماذج اللغوية يحدث نتيجةً لتوافق الإدخال غير اللغوي والمعرفة المستمدة من الدلالات اللغوية، وهو ما يعكس التقدم الكبير في مجال الذكاء الاصطناعي وفهمه للعالم من حولنا.

استكشاف التعلم الموسع عبر الأنماط: كيف تتفاعل نماذج الذكاء الاصطناعي في معالجة النصوص والصور؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!