EmbodiedMidtrain: التحول الثوري بين نماذج الرؤية واللغة ونماذج الرؤية-اللغة-السلوك

في عالم الذكاء الاصطناعي، تواجه نماذج الرؤية-اللغة-السلوك (VLAs) تحديات تتعلق بأدائها بسبب الاعتماد على نماذج الرؤية-اللغة (VLMs) الجاهزة، والتي قد لا تكون متكيفة بشكل كافٍ مع نطاق الاستخدام الفعلي. هنا يأتي دور مُقترح احترافي يُعرف بـ EmbodiedMidtrain، والذي يعد ثورة في هذا المجال.

تسليط الضوء على الفجوة البياناتية بين نماذج VLMs ونماذج VLAs هو العنصر الأساسي في هذا الابتكار. فقد أظهر البحث أن البيانات المستخدمة في نماذج VLAs تتواجد في مناطق ضيقة منفصلة عن توزيع البيانات الأوسع لنماذج VLMs، مما يشير إلى حاجة ملحة لتكييف البيانات المعنية. وبالتالي، يتم بناء محرك بيانات تدريبي متوسط يختار أفضل المرشحين المتوافقين مع VLA من مجموعة كبيرة من نماذج VLM.

عبر تجارب أُجريت على ثلاثة معايير لمهام الروبوت، تبين أن التدريب المتوسط يعزز الأداء بشكل ملحوظ عبر مختلف هياكل VLM، بل ويحقق نتائج تنافس الأبحاث المتقدمة في هذا المجال، رغم أنها تعتمد على نماذج ذات حجم وتكاليف تدريب أكبر. ويظهر التحليل أن التدريب المتوسط يمنح بداية أقوى لتعديل نماذج VLA، حيث تبدأ الفوائد بالظهور منذ الخطوات الأولية وتتوسع خلال فترة التدريب.

علاوة على ذلك، يوفر محرك البيانات إشارات توافق على مستوى مجموعة البيانات والمثال، مما يعزز من قدرة الموديلات على التفكير المكاني بدلاً من التركيز فقط على النصوص، مع الإبقاء على تنوع بيانات VLM. وعليه، سيقوم الباحثون بإطلاق كافة الأكواد والبيانات والنماذج لتعزيز البحث في المستقبل.

EmbodiedMidtrain: التحول الثوري بين نماذج الرؤية واللغة ونماذج الرؤية-اللغة-السلوك

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!