تشهد تقنية رؤية الكمبيوتر (Computer Vision) تقدمًا ملحوظًا، حيث تُعتبر معالجة معلمات الكاميرا من الصور ورسم المشاهد من وجهات نظر جديدة مهامًا غالبًا ما تم التعامل معها بشكل مستقل. لكن، ماذا يحدث عندما تكون التغطية التصويرية sparse أو تتسم المسارات بالغامضة؟ هنا تبرز أهمية الابتكارات الحديثة.
نموذج "أشعة كالبكسلات" (Rays as Pixels) يعد ثورة في هذا المجال، حيث يقدم نموذجًا مبتكرًا يُعرف باسم نموذج "انتشار الفيديو" (Video Diffusion Model - VDM) الذي يتعلم توزيعًا مشتركًا بين الفيديوهات ومسارات الكاميرا. هذا النموذج هو الأول من نوعه الذي يتنبأ بمواقف الكاميرا ويولد الفيديوهات بطريقة مُسيطر عليها ضمن إطار عمل واحد.
ما يميز هذا النموذج هو تمثيله لكل كاميرا كـ "بكسلات أشعة كثيفة" (Dense Ray Pixels أو raxels)، وهو تمثيل متماهي مع الإطارات الفيديوية، مما يتيح عملية إزالة الضوضاء بشكل مشترك من خلال آلية "الانتباه الذاتي المنفصل" (Decoupled Self-Cross Attention). يمكن للنموذج المدرب التعامل مع ثلاثة مهام في آن واحد: **التنبؤ بمسارات الكاميرا** من مقاطع الفيديو، **توليد الفيديو** من الصور المدخلة على طول مسار محدد مسبقًا، و**توليد الفيديو ومسار الكاميرا** بشكل مشترك من تلك الصور.
لقد أجرينا تقييمات على مهام مثل تقدير الوضعية وتوليد الفيديو المُستند إلى تحكم الكاميرا، وأدخلنا اختبار "التناسق الذاتي المغلق" الذي يوضح توافق التنبؤات مع الصور المُولدة. تبيّن التجارب أن تمثيل الكاميرات في مساحة لامحدودة مشتركة مع الفيديو أكثر فعالية بشكل ملحوظ.
مع هذا الابتكار، يُتوقع أن تحدث "أشعة كالبكسلات" تغييرًا جذريًا في كيفية إنشاء وتصور الفيديوهات. كيف ترى إمكانيات هذا النموذج؟ هل يمكن أن يكون لديك تجارب مشابهة؟ شاركنا رأيك في التعليقات!
⏱ 2 دقائق للقراءة👁 0 مشاهدة
ثورة في رؤية الكمبيوتر: كيف تحول "أشعة كالبكسلات" مستقبل تصوير الفيديو!
تقدم تقنية "أشعة كالبكسلات" نموذجًا مبتكرًا يدمج بين الفيديوهات ومسارات الكاميرا، مما يعزز دقة التصوير ويحقق نتائج غير مسبوقة. هذا التطور يعد الأول من نوعه في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
