هل نماذج الفيديو قادرة على بناء منطقها في العالم الحقيقي؟ إليكم الإجابة المثيرة!
تواجه نماذج الرؤية واللغة تحديات في البيئة الحقيقية، لكن الإطار التدريبي الجديد ROVA يعزز من قدرتها على التكيف. مع نتائج تشير إلى تحسينات كبيرة، يبدو أن مستقبل هذه النماذج واعد للغاية.
تواجه نماذج الرؤية واللغة (Vision-Language Models) العديد من التحديات عند الانتقال من بيئات الاختبار المعزولة إلى العالم الحقيقي. حيث يمكن لعوامل مثل الطقس، والعوائق، وحركة الكاميرا أن تعرقل فهم النموذج وقدرته على الاستدلال، مما يكشف عن الفجوة بين الأوضاع الخاضعة للرقابة والقدرة على التكيف مع الظروف الحقيقية.
لذا، قدم الباحثون إطار العمل الثوري ROVA الذي يهدف إلى تحسين القدرة على التكيف من خلال نمذجة مكافأة تتفق مع الروبustes (Robustness-aware consistency reward) في ضوء التغيرات الزمنية والمكانية.
يعتمد هذا النظام على استراتيجية تدريب تعتمد على صعوبة المهام، مما يجعل النموذج يركز على العينات الأكثر فائدة بناءً على قدراته المتطورة. يتم تقييم صعوبة العينات بشكل مستمر من خلال تقييم ذاتي، مما يوفر تدريباً مرنًا مع مكافآت تعزز من القدرة على المرونة.
علاوة على ذلك، تم تقديم معيار جديد يسمى PVRBench يعزز من بيانات الفيديو المجسدة بإدخال تغيرات واقعية لتقييم الدقة وجودة الاستدلال تحت ظروف محددة تجريبياً. تم تقييم ROVA بالإضافة إلى نماذج أخرى على PVRBench وUrbanVideo وVisBench، حيث أظهرت النماذج الشائعة والخاصة تراجعًا يصل إلى 35% و28% في الدقة والقدرة على الاستدلال في ظل الاضطرابات الواقعية.
ومع ذلك، أظهر ROVA فعالية كبيرة في تقليل تراجع الأداء، حيث حقق زيادة في الدقة النسبية تصل إلى 24% وارتفاعًا في جودة الاستدلال تجاوز 9% مقارنة بالنماذج الأساسية مثل QWen2.5/3-VL وInternVL2.5. هذه المكاسب ليست فقط في المعايير الجديدة، بل تنعكس أيضاً في معايير الاختبار القياسية، مما يدل على تحسينات متسقة وموثوقة.
إذاً، كيف يمكن لهذه النتائج أن تؤثر على مستقبل نماذج الفيديو وتطبيقاتها الحقيقية؟
لذا، قدم الباحثون إطار العمل الثوري ROVA الذي يهدف إلى تحسين القدرة على التكيف من خلال نمذجة مكافأة تتفق مع الروبustes (Robustness-aware consistency reward) في ضوء التغيرات الزمنية والمكانية.
يعتمد هذا النظام على استراتيجية تدريب تعتمد على صعوبة المهام، مما يجعل النموذج يركز على العينات الأكثر فائدة بناءً على قدراته المتطورة. يتم تقييم صعوبة العينات بشكل مستمر من خلال تقييم ذاتي، مما يوفر تدريباً مرنًا مع مكافآت تعزز من القدرة على المرونة.
علاوة على ذلك، تم تقديم معيار جديد يسمى PVRBench يعزز من بيانات الفيديو المجسدة بإدخال تغيرات واقعية لتقييم الدقة وجودة الاستدلال تحت ظروف محددة تجريبياً. تم تقييم ROVA بالإضافة إلى نماذج أخرى على PVRBench وUrbanVideo وVisBench، حيث أظهرت النماذج الشائعة والخاصة تراجعًا يصل إلى 35% و28% في الدقة والقدرة على الاستدلال في ظل الاضطرابات الواقعية.
ومع ذلك، أظهر ROVA فعالية كبيرة في تقليل تراجع الأداء، حيث حقق زيادة في الدقة النسبية تصل إلى 24% وارتفاعًا في جودة الاستدلال تجاوز 9% مقارنة بالنماذج الأساسية مثل QWen2.5/3-VL وInternVL2.5. هذه المكاسب ليست فقط في المعايير الجديدة، بل تنعكس أيضاً في معايير الاختبار القياسية، مما يدل على تحسينات متسقة وموثوقة.
إذاً، كيف يمكن لهذه النتائج أن تؤثر على مستقبل نماذج الفيديو وتطبيقاتها الحقيقية؟

