في عصر الذكاء الاصطناعي الحديث، تعتبر نماذج المكافآت المتعددة الوسائط (Multimodal Reward Models - MRM) أساسية لضمان توافق نماذج اللغات الكبيرة المتعددة الوسائط (Multimodal Large Language Models - MLLMs) مع تفضيلات البشر. ومع ذلك، فإن تدريب نموذج مكافآت فعّال يتطلب مجموعة بيانات تفضيل متعددة الوسائط عالية الجودة. لكن، تواجه مجموعات البيانات الحالية ثلاثة تحديات رئيسية:

1. نقص الدقة في قوة التفضيل.
2. انحياز الأسلوب النصي.
3. الإشارات غير الموثوقة للتفضيل.

كما تعاني مجموعات البيانات المنتشرة مفتوحة المصدر من ضوضاء كبيرة، مما يجعل تحسين جودتها تحدياً يحتاج لحلول فعالة وقابلة للتوسع. للتغلب على هذه القيود، تم اقتراح **DT2IT-MRM**، الذي يجمع بين معالجة التفضيلات غير المنحازة، وإعادة صياغة البيانات الخاصة بتفضيلات النص إلى صورة (Text-to-Image - T2I)، وإطار التدريب المتكرر الذي ينظم تحسين مجموعات البيانات الحالية.

نتائج التجارب تُظهر أن DT2IT-MRM يحقق أداءً مُتفوقاً جديداً على ثلاثة معايير كبرى: VL-RewardBench وMultimodal RewardBench وMM-RLHF-RewardBench. هذه الابتكارات لا تساعد فقط في تحسين الأداء، بل تدعم أيضاً الفهم الأعمق لتفضيلات المستخدمين البشرية، مما يُعزز مستقبل تطوير الذكاء الاصطناعي.