تعتمد هذه الطريقة على مفهوم "معرفات الأذرع الأفضل" (best arm identification) في مسألة bandits متعددة الأذرع، حيث يمثل كل bandit مهمة معينة وكل ذراع خوارزمية أو وكيل محدد.
كيف تعمل التقنية؟
تستند العملية إلى اختيار متفائل يعتمد على فترة ثقة مختارة، مما يساعد في تصنيف كل ذراع عبر جميع bandits وفقاً لقدرتها على التأثير في إجماليات (simple regret) الأداء.
أجريت تجارب على اثنين من أشهر أنظمة الألعاب العامة، وهما منصة General Video Game AI (GVGAI) ونظام Ludii للألعاب العامة، بهدف اختيار وكيل عالي الأداء لكل لعبة باستخدام عدد محدود من التجارب المتاحة.
نتائج مذهلة
وضع أسلوبنا المقترح معياراً جديداً من حيث الأداء المحسّن، حيث أظهر تحسناً ملحوظاً في الأداء مقارنة بالبدائل السابقة، مع انخفاض متوسط البساطة في الندم (average simple regret) وزيادة احتمال النجاح (average probability of success).
يمكن استخدام هذه الطريقة الجديدة لتحسين الجودة والدقة في إجراءات تقييم الوكلاء لأنظمة الألعاب العامة، فضلاً عن مجالات متعددة المهام التي تتسم بفترات تشغيل خوارزميات طويلة.
هل تعتقد أن هذه التقنية يمكن أن تعيد تشكيل طريقة تصميم الألعاب الذكية؟ شاركونا آراءكم في التعليقات!
