شهدت في الآونة الأخيرة تقدمًا ملحوظًا في مجال التعلم المعزز (Reinforcement Learning) يعزز من قدرات التفكير في النماذج اللغوية الكبيرة (Large Language Models) والنماذج الرؤية واللغة (Vision-Language Models). على الرغم من ذلك، لا تزال الطريقة الشائعة المستخدمة، مثل تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO)، تعاني من مشكلة انهيار الانتروبيا، مما يؤدي إلى تقارب متسرع وفقدان التنوع المطلوب.

تظهر طرق الاستكشاف الحالية تحيزًا أو تباينًا إضافيًا مما يجعل من الصعب الحفاظ على استقرار التحسين. هنا تتدخل آلية التحكم الموحد في الانتروبيا (Unified Entropy Control for Reinforcement Learning - UEC-RL)، التي تقدم إطار عمل يوفر آليات مستهدفة للاستكشاف والاستقرار.

تعمل UEC-RL على تفعيل المزيد من الاستكشاف على المحفزات الصعبة للبحث عن مسارات تفكير قيمة ومحتملة. في الوقت نفسه، يمنع مثبت الانتروبيا من النمو بشكل غير متحكم فيه، مما يحافظ على استقرار التدريب أثناء ترسيخ النموذج سلوكيات موثوقة.

تمتاز هذه المكونات بقدرتها على توسيع مساحة البحث عند الحاجة مع الحفاظ على تحسين قوي طوال فترة التدريب. وقد أظهرت التجارب على مهام التفكير لكل من LLM وVLM تحقيق مكاسب ثابتة على الأسس المعتمدة على التعلم المعزز، سواء في Pass@1 أو Pass@$k$. توصلت الأبحاث إلى أن UEC-RL حققت تحسنًا نسبيًا قدره 37.9% مقارنة بـ GRPO على مجموعة بيانات Geometry3K، مما يدل على قدرتها على تحقيق استكشاف فعال دون التنازل عن التقارب الجيد، مما يبرز UEC-RL كمفتاح لتوسيع نطاق التفكير المبني على التعلم المعزز في النماذج الكبيرة.

لاستكشاف المزيد حول هذه التقنية المثيرة، يمكنكم الاطلاع على الشيفرة البرمجية المتاحة عبر GitHub.