شهدت تقنيات القيادة الذاتية تطورًا ملحوظًا مع استخدام نماذج الرؤية اللغوية (Vision-Language Models) التي تُعتبر أساسًا لأنظمة القيادة الذاتية. ومع ذلك، كان تنفيذ هذه النماذج محدودًا بسبب العبء الحاسوبي الكبير الناتج عن بيانات الكاميرات متعددة الزوايا والفيديوهات متعددة الإطارات.
الكثير من طرق تقليص الرموز الحالية مصممة في الأساس للإدخال من صورة واحدة فقط، مما يجعلها تعامل كل إطار أو زاوية بشكل منعزل، وبالتالي تفشل في استغلال التكرارات الزمانية والمكانية الكامنة في سيناريوهات القيادة. هنا يأتي دور تقنية ST-Prune.
تقدم ST-Prune إطار عمل مبتكر يعتمد على مكونين رئيسيين: تقليص زمني مدرك للحركة (Motion-aware Temporal Pruning - MTP) وتقليص مكاني بانورامي (Ring-view Spatial Pruning - RSP). يركز MTP على التكرار الزمني بفضل ترميز تقلب الحركة والحداثة الزمنية كقيود مرنة، مما يعزز المسارات الديناميكية ومحتوى الإطار الحالي بدلاً من الخلفيات الثابتة.
على الجانب الآخر، يتمكن RSP من معالجة التكرار المكاني عن طريق استغلال هندسة الكاميرات المتعددة للحد من التشابه المتبادل بين الزوايا، مما يقضي على الإطلالات المكررة والخلفيات المتبقية التي قد لا يتمكن التقليص الزمني وحده من التعامل معها.
بفضل هذين المكونين، تشكل ST-Prune عملية تقليص مكاني وزمني متكاملة، وتحافظ على المعلومات الرئيسية للمشهد تحت ضغط شديد.
بعد إجراء اختبارات عبر أربعة معايير تشمل الإدراك والتنبؤ والتخطيط، أثبتت ST-Prune أنها تقدم أفضل أداء في تقليص الرموز دون الحاجة للتدريب. حيث أظهرت نتائج مذهلة، حتى مع تقليص النماذج بنسبة 90%، فإن الأداء لا يزال متقاربًا مع معايير النموذج الكامل، كما أنها تحافظ على سرعات استنتاج مماثلة للحلول الحالية.
ST-Prune: ثورة في تقنيات تقليص الرموز للقيادة الذاتية دون الحاجة للتدريب
تقنية ST-Prune تُحدث تحولاً جذرياً في معالجة النماذج البصرية اللغوية (VLMs) للقيادة الذاتية، حيث تقدم إطار عمل مبتكراً يجمع بين تقنيات تقليص الرموز الزمانية والمكانية. بفضل هذه التقنية، يمكن تحسين الأداء مع تقليل المكونات بشكل كبير دون الحاجة للتدريب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
