تواجه المركبات ذاتية القيادة تحدياً كبيراً في التواصل مع مستخدمي الطريق الآخرين، مما يجعل واجهات الإنسان-آلة الخارجية (eHMI) ضرورية لنقل النوايا وبناء الثقة في البيئة المشتركة. رغم ذلك، تعتمد معظم الدراسات في هذا المجال على أزواج من الرسائل والعمل مصممة يدوياً، مما يصعب تكييفها مع سياقات المرور المتنوعة والديناميكية.

أحد البدائل الواعدة هو استخدام نماذج اللغات الضخمة (LLMs) كمصممي أفعال، حيث تولد هذه النماذج أفعال الـ eHMI بناءً على سياق محدد. ومع ذلك، فإن هذه النماذج تفتقر إلى التحقق الإدراكي وعادة ما تعتمد على تفاعلات ثابتة أو ملاحظات مكلفة من قبل البشر لتحسين أدائها.

بهذا السياق، تقدم See2Refine إطار عمل مغلق ومبتكر يتيح استخدام نماذج الرؤية واللغة (VLM) كتقييم إدراكي لتحسين مصمم أفعال قائم على LLM. في هذا الإطار، يتم تقييم مناسبة الفعل المقترح من قبل VLM، وتستخدم هذه الملاحظات لإنشاء تحسينات تدريجية في تصميم الأفعال، مما يجعل عملية التحديث تتقدم بدون إشراف بشري.

استعرضنا فعالية هذا الإطار عبر ثلاثة أنماط من eHMI (شريط الضوء، العيون، والذراع) بالإضافة إلى أحجام مختلفة من نماذج LLM. أظهرت النتائج أن إطار See2Refine يفوق باستمرار المصممين القائمين على إشارات فقط، مقارنة بالمبادئ المحددة يدوياً، وفقاً لكل من مقاييس VLM وتقييمات البشر. علاوة على ذلك، تشير النتائج إلى أن هذه التحسينات تعمم عبر الأنماط المختلفة وأن تقييمات VLM تتوافق بشكل جيد مع تفضيلات البشر، مما يدعم فعالية See2Refine في تصميم الأفعال القابلة للتوسع.