في عالم التكنولوجيا الحديثة، تواجه الروبوتات تحت الماء المبنية على نماذج بيوميمتيك (Biomimetic) تحديات كبيرة في التنسيق والقدرة على اتخاذ قرارات فعالة أثناء المهام التعاونية، وخاصةً في ملاحقة الأهداف. من أجل التصدي لهذه التحديات، تم تقديم إطار عمل مبتكر يُعرف باسم Mamba-based Multi-Agent Group Relative Policy Optimization (M$^{2}$GRPO).
يعتمد هذا النظام الفريد على دمج سياسات Mamba الخاصة، والتي تستفيد من تاريخ المشاهدات الزمنية لالتقاط الاعتماد الزمني على المدى الطويل، مع تحسين السياسات النسبية للمجموعات تحت نموذج التدريب المركزي والتنفيذ اللامركزي (CTDE). هذه التقنية تتضمن ميزات قائمة على الانتباه للتفاعل بين الوكلاء، مما يوفر إجراءات محدودة مستمرة من خلال نمذجة Gaussian المنتظمة.
لتحسين عملية الإسناد بدون التضحية بالاستقرار، يتم الحصول على المزايا النسبية للمجموعات من خلال تطبيع المكافآت عبر الوكلاء ضمن كل حلقة، مما يؤدي إلى تحسين موارد التدريب بشكل كبير ويسمح بتحديث سياسات مستقرة وقابلة للتوسع.
تظهر الدراسات والمحاكاة الواسعة أن M$^{2}$GRPO تتفوق باستمرار على الأنظمة السابقة مثل MAPPO ونماذج أخرى قائمة على تكرار البيانات، سواء في نسبة النجاح أثناء الملاحقة أو كفاءة الالتقاط.
باختصار، تمثل هذه التقنية حلاً عملياً وقابلًا للتوسع لتحسين مهام الملاحقة في بيئات مائية معقدة بفضل استخدام أجهزة الروبوت البيوميمتيك.
ابتكار مذهل: تحسين سياسات الفرق متعددة العملاء لملاحقة الروبوتات تحت الماء Inspired by Mamba!
تمثل تقنية M$^{2}$GRPO طفرة في ملاحقة الروبوتات تحت الماء، حيث تجمع بين الاستقرار والقدرة على معالجة القرارات الطويلة الأجل. هذا الابتكار يعد بزيادة فعالية الفرق الروبوتية في المهام المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
