في عالم استرجاع المعلومات متعددة الأنماط (Universal Multimodal Retrieval - UMR)، تسعى الأنظمة الحديثة إلى دمج أنماط المعرفة المختلفة (كالصور والنصوص) في فضاء مشترك لضمان استرجاع دقيق وفعال. ومع ذلك، تظهر نتائج الدراسات recent أن عددًا من الطرق المستخدمة حاليًا تواجه تحديات كبيرة.

تنقسم تقنيات UMR إلى فئتين رئيسيتين:

1. **طرق الدمج المبكر (Early-Fusion)**: مثل نموذج Marvel، الذي يقوم بتمثيل الخصائص البصرية في فضاء نموذج اللغة (Language Model - LM) للتكامل مع نوع النص.

2. **طرق الدمج المتأخر (Late-Fusion)**: مثل نموذج UniVL-DR، الذي يستخدم مشفرات منفصلة للمدخلات البصرية والنصية للحصول على تمثيلات موحدة من خلال الجمع.

لكن، تكشف دراستنا الأولية أن نظام Marvel يعاني من انهيار الخصائص البصرية، مما يعني أنه يتجاهل الخصائص المرئية ويعتمد بشكل مفرط على المؤشرات النصية. بالمقارنة، رغم أن UniVL-DR أقل تأثراً بهذه المشكلة، إلا أنه يعاني من مشكلة تحاذي الدلالات (Semantic Misalignment)، حيث يكون المحتوى متعلقًا بشكل دلالي ولكنه يُرَتَّب بعيدًا في فضاء التمثيل.

لحل هذه التحديات، نقدم MiMIC، الذي يجلب ابتكارين رئيسيين:
1. **هندسة الدمج داخل المُفكّك (Fusion-in-Decoder)**، مما يتيح تكاملًا فعالًا بين الأنماط المتعددة.
2. **تدريب قوي من خلال دمج أحادي النمط (Single Modality Mixin) وإسقاط عشوائي للتسميات (Random Caption Dropout)**.

أظهرت التجارب على مجموعتي بيانات WebQA+ و EVQA+، حيث قد تفتقر الصور في الوثائق أو الاستفسارات إلى تسميات، أن MiMIC يتفوق دوماً على أساليب الدمج المبكر والمتأخر، مما يبرز أهميته كحل مبتكر في مجال استرجاع المعلومات متعددة الأنماط.