🔬 أبحاث1 دقائق للقراءة👁 0 مشاهدة

كام ريزونر: ثورة في فهم حركات الكاميرا من خلال الاستدلال المكاني المنظم

تقدم كام ريزونر (CamReasoner) نهجًا مبتكرًا لفهم حركات الكاميرا من خلال عملية استدلال منظمة، مما يعزز دقة التعرف على الحركات. هذه التقنية تستخدم التعلم المعزز (Reinforcement Learning) لضمان استنتاجات مدعومة بمنطق بصري واضح.

في عالم الذكاء الاصطناعي، يعد فهم ديناميات الكاميرا ركيزة أساسية للذكاء المكاني في الفيديو. رغم ذلك، تركز النماذج المتعددة الأنماط حاليًا على هذا الجانب عبر تصنيفات غامضة، وغالبًا ما تقع في فخ الخلط بين الحركات المختلفة من خلال الاعتماد على أنماط بصرية سطحية بدلاً من الملاحظات الهندسية.

هنا يأتي دور extbf{كام ريزونر (CamReasoner)}، الإطار الذي يعيد صياغة فهم حركات الكاميرا كعملية استدلال منظمة، جسرًا بين الإدراك والمنطق السينمائي. يعتمد هذا النظام على نموذج extbf{Observation-Thinking-Answer (O-T-A)}، الذي يجبر النموذج على تحليل الملاحظات الزمانية والمكانية واستنتاج أنماط الحركة ضمن مجموعة صريحة من المنطق.

لتمكين هذه القدرة، قمنا بإنشاء مجموعة استدلال ذات حجم كبير تضم 18,000 سلسلة استدلال مدعومة بالتعلم الموجه (SFT) و38,000 عينة ملاحظات من التعلم المعزز (RL). إننا نعتبر extbf{الأول في استخدام التعلم المعزز لتحقيق التوافق المنطقي في فهم حركات الكاميرا}، مما يضمن أن تكون استنتاجات الحركة مستندة إلى استدلال بصري منظم بدلاً من التخمين السياقي.

بنيت على نموذج extbf{Qwen2.5-VL-7B}، وتحسن دقة التصنيف الثنائي في كام ريزونر-7B من 73.8% إلى 78.4%، بينما زادت دقة استبيانات الأسئلة والأجوبة المرئية (VQA) من 60.9% إلى 74.5% مقارنةً بالأساس. ذلك يجعل كام ريزونر يتفوق باستمرار على كل من النماذج العامة والمملوكة عبر مجموعة متعددة من المقاييس.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة