في عالم الذكاء الاصطناعي، تُعد نماذج الرؤية-اللغة-الإجراء (Vision-Language-Action Models - VLAs) من التقنيات البارزة التي أثبتت نجاحها في تطبيقات الروبوتات، وخاصة في التعامل مع التحديات الميكانيكية المعقدة. مؤخراً، تم استخدامها بشكل متزايد في المهام ذات الأفق الطويل، وقد خضعت للتقييم على مقاييس مشهورة مثل BEHAVIOR1K (B1K) لحل مهام منزلية معقدة.

تُعتبر نسبة النجاح أو النتيجة الجزئية وفقاً لمعايير عدم الإشباع هي المقياس الأكثر شيوعاً لتقدير التقدم في هذه المقاييس. لكن هل تعكس هذه المعايير حقيقة الأداء الفعلي للروبوتات؟ في هذا المقال، نناقش كيف أن استخدام هذه البروتوكولات النهائية قد يغفل الجوانب الأمنية التشغيلية، مما قد يؤدي إلى تضخيم النتائج المعلنة جديراً بالاهتمام.

من خلال تحليل شامل لنماذج الرؤية-اللغة-الإجراء (VLAs) الرائدة في التحدي B1K، قمنا بتقييم السياسات من حيث القوة من خلال قابليتها للتكرار والثبات، وأيضاً من حيث الأمان، والوعي بالمهمة، والعناصر الأساسية التي تؤدي إلى عدم اكتمال المهام.

نقترح بروتوكولات تقييم جديدة تهدف إلى رصد انتهاكات السلامة، مما يساعد على قياس الأداء الحقيقي للسياسات في سيناريوهات أكثر تعقيدًا وتفاعلاً. واختتاماً، نستعرض بعض القيود المفروضة على النماذج الحالية ونحفز الأبحاث المستقبلية لاستكشاف آفاق جديدة. هذه التساؤلات تدفعنا للتفكير: كيف يمكننا تحسين سلامة وأداء الروبوتات في الحياة اليومية؟