🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

ثورة في تعلم التعزيز: تجاوز تحديات زمن الإسناد عبر استراتيجية Target Decoupling

تتناول الأبحاث الجديدة في مجال تعلم التعزيز تحديات زمن الإسناد وتقديم حلول مبتكرة باستخدام بنية Target Decoupling. هذه الدراسة توضح كيف يمكن تحسين أداء الخوارزميات بصورة ملحوظة وتفادي الانهيارات في السياسات.

تشكل مسألة الإسناد الزمني (Temporal Credit Assignment) تحديًا كبيرًا في مجال تعلم التعزيز (Reinforcement Learning). مستلهمة من نظام الدوبامين (Dopamine System) في علم الأعصاب، قامت دراسات حديثة بمحاولة دمج عوامل خصم متعددة ضمن بنى Actor-Critic مثل Proximal Policy Optimization (PPO)، مما يسهم في تحقيق توازن بين الاستجابات قصيرة المدى والتخطيط على المدى الطويل.

لكن، هذا البحث يسلط الضوء على أوجه القصور التي قد تنجم عن الدمج العشوائي للإشارات متعددة الأبعاد في المهام الكبيرة ذات المكافآت المتأخرة. فقد أظهرت النتائج أن استخدام آلية توجيه الانتباه الزمني في تقديرات السياسات يمكن أن يؤدي إلى مشكلات خطيرة، مثل القرصنة على الأهداف البديلة. علاوة على ذلك، فإن اعتماد وزن عدم اليقين الخالي من التدرج (Gradient-free Uncertainty Weighting) يمكن أن يؤدي إلى تدهور عدم رجعي نحو عمى قصير المدى، وهو مفهوم أطلقنا عليه "مفارقة عدم اليقين الزمني".

للتغلب على هذه التحديات، نقترح بنية Target Decoupling: من جهة النفاذ (Critic)، نحتفظ بتوقعات ذات أبعاد زمنية متعددة لتعزيز تعلم التمثيل المساعد، بينما نقوم في جانب السياسة (Actor) بالعزل الصارم للإشارات قصيرة المدى. يتم تحديث السياسة بناءً على المزايا طويلة المدى فقط.

تظهر التقييمات التجريبية الصارمة عبر عدة بذور عشوائية مستقلة في بيئة LunarLander-v2 أن بنية Target Decoupling تحقق تحسينات أداء كبيرة ومعنوية. دون الاعتماد على حيل ضبط المعلمات، تتمكن هذه البنية من تجاوز عتبة "حل البيئة" باستمرار مع تقلبات طفيفة، مما يمنع الانهيار في السياسات وينجح في الهروب من الحلول المحلية الثابتة التي تحاصر الأنظمة ذات البعد الزمني الواحد.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة