🤖 روبوتات2 دقائق للقراءة👁 0 مشاهدة

انطلاق ثوري في تعلم التعزيز: دمج الرؤية واللغة والعمل لتحسين الكفاءة!

تعود التحسينات المثيرة في تعلم التعزيز لتقديم طريقة جديدة تتجاوز التحديات التقليدية في تحقيق السيطرة الدقيقة على الروبوتات. الطريقة الجديدة تضمن تحقيق كفاءة عالية تتجاوز 50% في تقليل التفاعل مع البيئة.

تعتبر التعلم المعزز (Reinforcement Learning) واحداً من أهم الأساليب المستخدمة في التحكم بالروبوتات، حيث يمكنها من تحقيق عمليات دقيقة وسريعة. ومع ذلك، لا يزال من الصعب التوسع في المهام الطويلة المدى التي تحتوي على مكافآت متفرقة أو غير كاملة. هنا يأتي دور نماذج الرؤية-اللغة-العمل (Vision-Language-Action)، والتي تستفيد من التدريب المتعدد الوسائط على نطاق واسع لتوفير تفكير عام ومهام مُستوى.

في ورقتنا العلمية الجديدة، نقدم طريقة مبتكرة تحت مسمى "بدء العمل بالرؤية-اللغة-العمل" (Vision-Language-Action Jump-Starting - VLAJS)، والتي تهدف إلى ربط الإرشادات القليلة من VLA مع تعلم التعزيز لتحقيق كفاءة أفضل في الاستكشاف والتعلم. تعتمد VLAJS على التعامل مع النماذج كمصادر مؤقتة للاقتراحات عالية المستوى، مما يحسن من عملية الاستكشاف ويزيد من دقة التقديرات.

نقوم أيضاً بتعزيز خوارزمية تحسين السياسة القريبة (Proximal Policy Optimization - PPO) من خلال تحسين استقرار العمل أثناء التدريب المبكر للوكيل، مما يسمح له بالتكيف وتحسين أدائه دون الاعتماد بشكل صارم على التقليد أو التوجيه المستمر.

لقد قمنا بتقييم تأثير VLAJS في ست مهام مثيرة للتحدي تتعلق بالتحكم: الرفع، الالتقاط والتحريك، إعادة توجيه الأزرار، إدخال الأزرار، اللمس، والدفع. أظهرت التجارب أن VLAJS يتفوق باستمرار على خوارزميات PPO التقليدية، حيث حقق تحسيناً في الكفاءة ع طبلاً سيقلل من عدد التفاعلات مع البيئة بأكثر من 50% في العديد من المهام. كما أن التجارب في الواقع أثبتت قدرة النظام على التكيف مع أدنى تغييرات في البيئة، مما يضمن أداء قوياً حتى في الظروف غير المتوقعة.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة