في عالم التعلم الآلي، أصبح التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) أداة قوية خاصة عند التعامل مع نماذج اللغات الضخمة (Large Language Models - LLM). إلا أن الأساليب الحالية لا تزال تواجه تحديات رئيسية في تخصيص الموارد وديناميكيات تحسين السياسات.

هناك نقاط ضعف واضحة؛ أولاً، فإن تخصيص النماذج بشكل موحد يتجاهل تباين التدرجات بين المشكلات المختلفة. وثانيًا، فقد يؤدي هيكل السياسة الذي يعتمد على دالة السوفتمكس (softmax) إلى تضعيف التدرجات للإجراءات الصحيحة ذات الثقة العالية، في حين أن التحديثات الزائدة قد تؤدي إلى عدم استقرار التدريب.

استجابة لهذه التحديات، تم اقتراح إطار عمل مُسمى DynaMO، يتمتع بأساس نظري قوي. على مستوى التسلسل، نثبت أن التخصيص الموحد غير مثالي، ونستخرج تخصيصًا يقلل من التباين استنادًا إلى المبدأ الأول، مؤسسين التباين البرنولي كمؤشر قابل للحساب لإعلامية التدرجات.

وعلى مستوى الرموز، قمنا بتطوير تعديل للأفضلية يراعي التدرجات استنادًا إلى تحليل نظري لحدود حجم التدرج. يساعد إطار عمل DynaMO في تعويض تضعيف التدرجات للإجراءات الصحيحة ذات الثقة العالية، بينما يستفيد من تغييرات الإنتروبيا كمؤشرات قابلة للحساب لاستقرار أحجام التحديثات المفرطة.

تجاربنا الواسعة على مجموعة متنوعة من مؤشرات التفكير الرياضي أثبتت تحسينًا مستمرًا مقارنة بأساسيات RLVR القوية. لمزيد من المعلومات، يمكنك زيارة مشروعنا على GitHub: [GitHub Link].