في عالم الذكاء الاصطناعي، تواجه نماذج الرؤية-اللغة-السلوك (VLAs) تحديات تتعلق بأدائها بسبب الاعتماد على نماذج الرؤية-اللغة (VLMs) الجاهزة، والتي قد لا تكون متكيفة بشكل كافٍ مع نطاق الاستخدام الفعلي. هنا يأتي دور مُقترح احترافي يُعرف بـ EmbodiedMidtrain، والذي يعد ثورة في هذا المجال.
تسليط الضوء على الفجوة البياناتية بين نماذج VLMs ونماذج VLAs هو العنصر الأساسي في هذا الابتكار. فقد أظهر البحث أن البيانات المستخدمة في نماذج VLAs تتواجد في مناطق ضيقة منفصلة عن توزيع البيانات الأوسع لنماذج VLMs، مما يشير إلى حاجة ملحة لتكييف البيانات المعنية. وبالتالي، يتم بناء محرك بيانات تدريبي متوسط يختار أفضل المرشحين المتوافقين مع VLA من مجموعة كبيرة من نماذج VLM.
عبر تجارب أُجريت على ثلاثة معايير لمهام الروبوت، تبين أن التدريب المتوسط يعزز الأداء بشكل ملحوظ عبر مختلف هياكل VLM، بل ويحقق نتائج تنافس الأبحاث المتقدمة في هذا المجال، رغم أنها تعتمد على نماذج ذات حجم وتكاليف تدريب أكبر. ويظهر التحليل أن التدريب المتوسط يمنح بداية أقوى لتعديل نماذج VLA، حيث تبدأ الفوائد بالظهور منذ الخطوات الأولية وتتوسع خلال فترة التدريب.
علاوة على ذلك، يوفر محرك البيانات إشارات توافق على مستوى مجموعة البيانات والمثال، مما يعزز من قدرة الموديلات على التفكير المكاني بدلاً من التركيز فقط على النصوص، مع الإبقاء على تنوع بيانات VLM. وعليه، سيقوم الباحثون بإطلاق كافة الأكواد والبيانات والنماذج لتعزيز البحث في المستقبل.
EmbodiedMidtrain: التحول الثوري بين نماذج الرؤية واللغة ونماذج الرؤية-اللغة-السلوك
تقدم EmbodiedMidtrain طريقة مبتكرة لجسر الفجوة بين نماذج الرؤية-اللغة (VLMs) ونماذج الرؤية-اللغة-السلوك (VLAs). هذا التطور يساعد على تحسين أداء نماذج الروبوتات من خلال تدريب متوسط استثنائي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
