تعلم التعزيز بنسب محدودة: ثورة جديدة في الذكاء الاصطناعي

في عالم الذكاء الاصطناعي، أصبحت الخوارزمية المعروفة باسم تحسين السياسة القريب (Proximal Policy Optimization - PPO) واحدة من أكثر الطرق استخدامًا في تعلم التعزيز. وقد ساعدت هذه الخوارزمية في تحقيق نتائج مرنة وقابلة للتوسع في مختلف المجالات، ولكنها كانت تعاني من خلل كبير في الربط بين أساسيات طرق المناطق التراست والمسألة العشوائية الحالية المستخدمة فيها.
لذا، نقدم في هذا المقال إطار العمل الجديد، تعلم التعزيز بنسب محدودة (Bounded Ratio Reinforcement Learning - BRRL)، والذي يهدف إلى اجتياز هذه الفجوة.
من خلال صياغة مشكلة جديدة لتنظيم وتحسين السياسات، تمكنا من اشتقاق الحل الأمثل تحليليًا، وإثبات أن هذا الحل يضمن تحسينًا مستمرًا في الأداء.
لمواكبة فئات السياسة المعقدة، تم تطوير خوارزمية لتحسين السياسة تُعرف باسم تحسين السياسة المحدودة (Bounded Policy Optimization - BPO)، والتي تقلل من التباين المدروس بين السياسة والحل الأمثل التحليلي من BRRL.
تتجاوز حلول BPO وGBPO (تحسين السياسة المعتمدة على المجموعة) أداء PPO وGRPO التقليدية من حيث الاستقرار والأداء النهائي، حيث تم اختبارها على مجموعة متنوعة من البيئات بما في ذلك MuJoCo وAtari.
إن هذا التوجه الجديد لا يعزز فقط الأداء بل يوفر أيضًا تفسيرًا نظريًا لنجاح دوال خسارة PPO، مما يربط بين تحسين السياسة اعتماد منطقة الثقة (Trust Region Policy Optimization) وطريقة تقاطع الاحتمالات (Cross-Entropy Method - CEM).
في النهاية، يظهر هذا البحث تحويلًا جذريًا في كيفية نفهم تحسين أداء وكفاءة خوارزميات التعلم، مما يشير إلى مستقبل مشرق لهذا المجال.

تعلم التعزيز بنسب محدودة: ثورة جديدة في الذكاء الاصطناعي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!