تعتبر إيجاد طريقة موحدة لتعليم الروبوتات البشرية (Humanoid Robots) العديد من أساليب الحركة تحدياً تقنياً معقداً، حيث يتباين الطلب بين الاستقرار والقدرة الديناميكية عبر أساليب مختلفة. وتحت عنوان "تعلم متعدد الخطوات"، تقدم دراسة جديدة طريقتها الفريدة التي تمكِّن الروبوتات البشرية من إتقان خمس أساليب سعي متميزة: المشي (Walking)، السيرة على خط مستقيم (Goose-Stepping)، الجري (Running)، تسلق السلالم (Stair Climbing)، والقفز (Jumping).
تتمحور التقنية حول هيكل سياسة (Policy Structure) موحد ومساحة منافسة (Action Space) وصياغة مكافآت (Reward Formulation) متسقة، مما يعزز الكفاءة والفعالية في التعلم. من أبرز المساهمات في هذا النهج هي استراتيجية "الأولوية الجسيمة الانتقائية للحركة" (Selective Adversarial Motion Prior - AMP)، حيث تُطبَّق هذه الاستراتيجية على الأساليب الحرجة من حيث الاستقرار مثل المشي والسير على خط مستقيم وتسلق السلالم. تعزز استراتيجية AMP سرعة التقارب وتقلل من السلوك غير المنتظم، بينما تُستبعد عند التعامل مع الأساليب الديناميكية مثل الجري والقفز، حيث إن فرض القيود بشكل مفرط قد يعيق الحركة.
تم تدريب السياسات باستخدام خوارزمية PPO بالتوزيع العشوائي للمجال (Domain Randomization) في محاكاة وتم نشرها على روبوت بشري بوحدات دوران 12 (12-DOF) من خلال نقل ملفي من المحاكاة إلى الواقع (Sim-to-Real Transfer). أظهرت المقارنات الكمية أن استراتيجية AMP الانتقائية تفوقت على السياسة الثابتة بفضل تقارب أسرع وأدنى في معدل تتبع الحركة ونجاح أكبر في الأساليب التي تركز على الاستقرار، دون التأثير على الرشاقة المطلوبة في الأساليب الديناميكية. هذه الابتكارات تعزز آفاق استخدام الذكاء الاصطناعي في تطوير الروبوتات البشرية وفتح آفاق جديدة للبحث في هذا المجال.
تعلم متعدد الخطوات للروبوتات البشرية: كيف تسيطر على أساليب الحركة بفضل الذكاء الاصطناعي!
تقدم هذه الدراسة الجديدة طريقة مبتكرة لتعليم الروبوتات البشرية العديد من أساليب الحركة بكفاءة. تستخدم استراتيجية AMP الانتقائية لتحسين استقرار الحركة ودقتها دون التضحية بالرشاقة في الحركات الديناميكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
