في خطوة ثورية، قامت نماذج اللغة متعددة الوسائط (Omni-modal Large Language Models) بإعادة تعريف كيفية معالجة المعلومات، متجاوزة النماذج التقليدية التي تهيمن عليها النصوص. فبدلاً من التركيز التقليدي على النصوص، تظهر الأبحاث الأخيرة أن هذه النماذج تمتلك تفضيلاً بصريًا قويًا.

يأتي هذا الاكتشاف من دراسة جديدة استخدمت معيارًا مبتكرًا لتحديد تفضيلات الوسائط، مما أتاح تقييمًا دقيقًا لعشر نماذج لغويّة تمثل هذا المجال. وبالفعل، تظهر النتائج أن معظم هذه النماذج تميل إلى تفضيل المدخلات البصرية.

لكن، لماذا يحدث هذا التغير؟ من خلال تحليل طبقات النموذج، أظهر الباحثون أن تفضيل الوسائط ليس سكونيًا، بل يتطور بشكل تدريجي في الطبقات الوسطى والمتأخرة. هذا يُشير إلى أن الآليات الداخلية للنماذج تلعب دورًا حاسمًا في كيفية تعاملها مع المعلومات المتعددة.

استنادًا إلى هذه الاكتشافات، تم تطوير أداة تشخيصية قوية لتحليل الهلاوس بوسائط متعددة والتي تُحقق أداءً تنافسيًا عبر ثلاثة معايير متعددة الوسائط دون الحاجة لبيانات محددة لكل مهمة.

تمثل هذه الأبحاث خطوة هامة نحو بناء نماذج لغوية أكثر موثوقية، فعبر فهم آليات تفضيل الوسائط، يمكننا العمل على تحسين التطبيقات المستخدمة في الذكاء الاصطناعي وضمان نتائج أكثر دقة وثقة.