في عالم الذكاء الاصطناعي، تعد نماذج اللغة المتعددة الأنماط (Multimodal Large Language Models) خطوة متقدمة نحو تعزيز قدرات التفكير من خلال دمج مدخلات متنوعة مثل النصوص، والصور، والصوت. ومع ذلك، لا يزال التفكير عبر الأنماط المتعددة بحاجة إلى مزيد من البحث والاستكشاف. تبرز تقارير متضاربة حول فعالية الوسائط المضافة، حيث تتساءل العديد من الدراسات عما إذا كانت هذه الوسائط تسهم في تحسين الأداء أو تؤثر سلباً عليه.

السبب الرئيسي وراء هذه الفوضى في النتائج يكمن في عدم وجود أطر تقييم دقيقة تتيح فهم كيفية تفاعل الأنماط المتعددة وتأثيراتها على الأداء. لهذا السبب، تم تقديم إطار تقييم قائم على المنطق، يقسم التفكير متعدد الأنماط إلى ستة أنماط تفاعلية، متنوعة من حيث توزيع الحقائق عبر الوسائط وكيفية دمجها منطقيًا.

أظهرت النتائج التجريبية أن الوسائط الإضافية تعزز التفكير فقط عندما تقدم مسارات تفكير مستقلة وكافية، بينما تزيد الوسائط المتكررة أو المتتابعة من احتمالية تقليص الأداء. كما تم تحديد ثلاث طرق تفقد الأداء في التفكير: ضعف الوسائط، الانحياز الناتج عن الصراعات، وفشل الدمج الفعال للإشارات المشتركة من الوسائط المختلفة.

تظهر نتائج الدراسة وجود فشلين رئيسيين: "عنق الزجاجة في تكوين المهام"، حيث يتعذر تنفيذ التعرف والتفكير معاً في خطوة واحدة، و"عنق الزجاجة في الدمج"، حيث يؤدي الدمج المبكر إلى إدخال انحياز غير مرغوب فيه. تكشف الأبحاث أن أنماط الانتباه لا تتيح تحديد فائدة الحقائق، ولكن استخدام طريقة بسيطة من خطوتين (التعرف ثم التفكير) يمكن أن يستعيد الأداء بشكل كبير، مما يشير إلى أهمية معالجة عنق الزجاجة.

في النهاية، تُؤكد النتائج أن الدمج، وليس الإدراك، هو العائق الرئيسي أمام التفكير متعدد الأنماط، مما يدعو إلى استخدام تدريبات واعية بالتركيب والتحكم في الدمج المبكر كاتجاهات واعدة لتحسين النتائج.