تعتبر عملية فهم المشاهد الروبوتية خطوة حيوية في استغلال قدرات الروبوتات، حيث الاعتماد المتزايد على نماذج اللغة والرؤية (VLMs) للحصول على أوصاف طبيعية للبيئات المحيطة. في دراسة حديثة، قام الباحثون بتقييم دقيق لكفاءة هذه النماذج في مهمة تسمى 'تسمية الأجسام المفردة'، حيث يتم استخدام روبوت manipulators لالتقاط مشاهد مشهدية.
تتناول هذه الدراسة تغييرًا مصطنعاً في البيئة المادية، حيث تم مقارنة الأدوات الحقيقية بنماذج ثلاثية الأبعاد مصنوعة باستخدام الطباعة ثلاثية الأبعاد، والتي تختلف في الخامة، اللون، والنسيج. من خلال مجموعة متنوعة من المقاييس، تم قياس الأداء التدريجي لنماذج VLMs الحديثة فيما يتعلق بتوافقها الدلالي وقوائمها الواقعية.
النتائج كانت لافتة، حيث أظهرت أن النماذج المدربة على التعرف على الأجسام الشائعة في العالم الحقيقي كانت فعالة في ذلك، ولكن أدائها انخفض بشكل ملحوظ عندما تم اختبارها على الأجسام المطبوعة بثلاثة أبعاد، بالرغم من أنها تشترك في نفس البنية.
كما كشفت الدراسة عن وجود ثغرات كبيرة في المقاييس المستخدمة حاليًا، مشيرة إلى أن بعض الأساليب لا تستطيع الكشف عن تغيرات البيئات أو حتى تفضل الأوصاف المبهرة ولكنهما غير صحيحة. هذه النتائج تسلط الضوء على قيود استخدام النماذج الأساسية في الروبوتات، مما يستدعي تحسينات في بنى النماذج وبروتوكولات التقييم لضمان تطبيق أكثر فعالية لهذه الأساليب في التطبيقات الروبوتية الفعلية.
هل تستطيع الروبوتات التمييز بين الحقيقي والمزيف؟ تقييم قوة نماذج اللغة والرؤية في فهم المشاهد الروبوتية
تعمل النماذج القائمة على الرؤية واللغة (VLMs) على تعزيز قدرة الروبوتات في تحليل المشاهد وفهمها. تكشف دراسة جديدة عن تحديات كبيرة في أداء هذه النماذج عند مواجهة اختبارات تتضمن أشياء مطبوعة بتقنية ثلاثية الأبعاد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
