في عالم يتزايد فيه الاعتماد على التكنولوجيا، يأتي البحث الجديد بمفاهيم مبتكرة في نماذج الفيديو-لغة (Video-Language Models - VLMs). يهدف هذا البحث إلى تحسين فهم اللغة المرئية من خلال دمج تقنيات الذكاء الاصطناعي مع إشراف بشري دقيق.

تعريف شامل للموجودات المرئية


أُطلق هذا المشروع مع مجموعة من البيانات المفتوحة والمعايير التي تسمح بتخصيص الترجمة المرئية بدقة. يتم ذلك من خلال وصف جذري للعناصر، المشاهد، الحركات، الديناميات المكانية، وحركة الكاميرا، والتي تم تطويرها بالتعاون مع محترفي الفيديو مثل صانعي الأفلام.

إطار عمل CHAI


تم تقديم إطار عمل جديد يسمى CHAI (Critique-based Human-AI Oversight)، يهدف إلى تحسين جودة الترجمة المرئية. يتضمن هذا الإطار خبراء مدربين يقومون بتقييم وتعديل النصوص المولدة باستخدام نماذج الذكاء الاصطناعي، مما يعزز دقة الترجمة وكفاءة عملية الإشراف. فبفضل هذا التعاون بين البشر والآلات، يمكن للمحترفين التركيز أكثر على التحقق بدلاً من إنتاج النصوص.

النتائج المثيرة


تشير النتائج إلى أن جودة المراجعات والتحسينات التي أجراها الخبراء تؤثر بشكل مباشر على أداء النظام. وعند استخدام إشراف متواضع من الخبراء، تمكن النموذج الناتج من التفوق على نماذج مغلقة المصدر مثل Gemini-3.1-Pro.

تطبيقات واسعة النطاق


هذا النهج لا يقتصر فقط على تحسين الترجمة، بل يمتد أيضًا لإعادة تسمية مقاطع الفيديو الاحترافية على نطاق واسع، مثل الأفلام والإعلانات والألعاب، حيث تم تحسين نماذج إنتاج الفيديو مثل Wan لتتبع مطالب تفصيلية تتجاوز 400 كلمة، وبالتالي تحسين السيطرة على العناصر السينمائية كحركة الكاميرا والزوايا والتركيز.

إجمالًا، تقدم هذه الدراسات نظرة جديدة على كيفية استخدام الذكاء الاصطناعي والإشراف البشري لضمان فهم مرئي احترافي. يمكن الاطلاع على البيانات والكود عبر صفحة المشروع [هنا](https://linzhiqiu.github.io/papers/chai/).