في عالم الذكاء الاصطناعي، أصبحت الخوارزمية المعروفة باسم تحسين السياسة القريب (Proximal Policy Optimization - PPO) واحدة من أكثر الطرق استخدامًا في تعلم التعزيز. وقد ساعدت هذه الخوارزمية في تحقيق نتائج مرنة وقابلة للتوسع في مختلف المجالات، ولكنها كانت تعاني من خلل كبير في الربط بين أساسيات طرق المناطق التراست والمسألة العشوائية الحالية المستخدمة فيها.
لذا، نقدم في هذا المقال إطار العمل الجديد، تعلم التعزيز بنسب محدودة (Bounded Ratio Reinforcement Learning - BRRL)، والذي يهدف إلى اجتياز هذه الفجوة.
من خلال صياغة مشكلة جديدة لتنظيم وتحسين السياسات، تمكنا من اشتقاق الحل الأمثل تحليليًا، وإثبات أن هذا الحل يضمن تحسينًا مستمرًا في الأداء.
لمواكبة فئات السياسة المعقدة، تم تطوير خوارزمية لتحسين السياسة تُعرف باسم تحسين السياسة المحدودة (Bounded Policy Optimization - BPO)، والتي تقلل من التباين المدروس بين السياسة والحل الأمثل التحليلي من BRRL.
تتجاوز حلول BPO وGBPO (تحسين السياسة المعتمدة على المجموعة) أداء PPO وGRPO التقليدية من حيث الاستقرار والأداء النهائي، حيث تم اختبارها على مجموعة متنوعة من البيئات بما في ذلك MuJoCo وAtari.
إن هذا التوجه الجديد لا يعزز فقط الأداء بل يوفر أيضًا تفسيرًا نظريًا لنجاح دوال خسارة PPO، مما يربط بين تحسين السياسة اعتماد منطقة الثقة (Trust Region Policy Optimization) وطريقة تقاطع الاحتمالات (Cross-Entropy Method - CEM).
في النهاية، يظهر هذا البحث تحويلًا جذريًا في كيفية نفهم تحسين أداء وكفاءة خوارزميات التعلم، مما يشير إلى مستقبل مشرق لهذا المجال.
تعلم التعزيز بنسب محدودة: ثورة جديدة في الذكاء الاصطناعي
يقدم البحث الجديد إطار عمل مبتكر يُدعى تعلم التعزيز بنسب محدودة (BRRL)، الذي يعزز أداء الخوارزميات التقليدية مثل تحسين السياسة القريب (PPO). هذه الطريقة الجديدة تؤكد على تحسين مستدام وأداء أفضل في بيئات مختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
