في عالم التكنولوجيا الحديثة، تواجه الروبوتات تحت الماء المبنية على نماذج بيوميمتيك (Biomimetic) تحديات كبيرة في التنسيق والقدرة على اتخاذ قرارات فعالة أثناء المهام التعاونية، وخاصةً في ملاحقة الأهداف. من أجل التصدي لهذه التحديات، تم تقديم إطار عمل مبتكر يُعرف باسم Mamba-based Multi-Agent Group Relative Policy Optimization (M$^{2}$GRPO).

يعتمد هذا النظام الفريد على دمج سياسات Mamba الخاصة، والتي تستفيد من تاريخ المشاهدات الزمنية لالتقاط الاعتماد الزمني على المدى الطويل، مع تحسين السياسات النسبية للمجموعات تحت نموذج التدريب المركزي والتنفيذ اللامركزي (CTDE). هذه التقنية تتضمن ميزات قائمة على الانتباه للتفاعل بين الوكلاء، مما يوفر إجراءات محدودة مستمرة من خلال نمذجة Gaussian المنتظمة.

لتحسين عملية الإسناد بدون التضحية بالاستقرار، يتم الحصول على المزايا النسبية للمجموعات من خلال تطبيع المكافآت عبر الوكلاء ضمن كل حلقة، مما يؤدي إلى تحسين موارد التدريب بشكل كبير ويسمح بتحديث سياسات مستقرة وقابلة للتوسع.

تظهر الدراسات والمحاكاة الواسعة أن M$^{2}$GRPO تتفوق باستمرار على الأنظمة السابقة مثل MAPPO ونماذج أخرى قائمة على تكرار البيانات، سواء في نسبة النجاح أثناء الملاحقة أو كفاءة الالتقاط.

باختصار، تمثل هذه التقنية حلاً عملياً وقابلًا للتوسع لتحسين مهام الملاحقة في بيئات مائية معقدة بفضل استخدام أجهزة الروبوت البيوميمتيك.