في عالم الذكاء الاصطناعي، تتفاعل النماذج متعددة الأنماط، مثل نماذج رؤية-لغة-فعل (Vision-Language-Action)، بشكل متزايد مع بيانات متعددة المصادر لتوليد أفعال دقيقة وفعالة. ومع ذلك، كانت التوجيهات المكانية غالبًا ما تُحقن بشكل غير واضح، مما يجعلها تعتمد على الميزات الكامنة.

هنا يأتي دور نموذج CorridorVLA، الذي أحدث ثورة في هذه الفكرة. يقوم النموذج بتوقع نقاط مرجعية مكانية نادرة كتحولات فعلية متزايدة، مثل التغيرات في المراكز (Δ-positions). ويستخدم هذه النقاط لإملاء منطقة تحمل صريحة في هدف التدريب لتوليد الأفعال، مما يوفر توجيهًا دقيقًا.

تُحدد هذه النقاط الممر (corridor) الذي يوجه رأس الفعل المبني على المطابقة التدفقية. حيث إن أي مسارات تخرج عن هذا الممر تتلقى تدرجات تصحيحية، في حين يتم السماح بانحرافات بسيطة من الاتصالات وضجيج التنفيذ.

عند اختبار النموذج مع معيار LIBERO-Plus الأكثر تحديًا، حقق CorridorVLA تحسينات مستمرة على كلا من SmolVLA وGR00T، حيث زاد معدل النجاح بنسبة تتراوح بين 3.4% و12.4% مقارنة بالمعايير السابقة. ومن المثير للاهتمام أن النسخة GR00T-Corr حققت معدل نجاح بلغ 83.21%! هذه النتائج تشير بوضوح إلى أن المؤشرات الفيزيائية المرتبطة بالفعل يمكن أن توفر قيودًا مباشرة وقابلة للتفسير لسياسات الأفعال المولدة، بالإضافة إلى التوجيه المكاني المرمز في الأشكال البصرية أو الكامنة.

للمزيد من المعلومات والتجربة العملية، يمكنكم الاطلاع على الكود المصدري المتاح على [GitHub](https://github.com/corridorVLA).