في عالم الذكاء الاصطناعي، يمثل التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) قفزة نوعية في قدرات التفكير لنماذج اللغات الضخمة (Large Language Models - LLMs). حيث يعتمد هذا الأسلوب على توثيق النتائج بشكل مباشر بدلاً من الاعتماد على نماذج مكافآت متعلمة. ومع ذلك، تواجه طرق مثل تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO) بعض التحديات، أبرزها التوزيع العشوائي للاعتراف بالنجاحات خلال الخطوات المتوسطة، مما يحد من قدرتها على تحديد استراتيجيات التفكير الفعّال وقد يؤدي إلى التفكير الزائد.

لحل هذه المشكلة، قدم الباحثون إشرافًا على العمليات القابلة للتحقق يمكن الاعتماد عليه من خلال استكشاف إيمان النموذج بالإجابة الصحيحة خلال مسار تفكيره. من خلال تقسيم عملية توليد الإجابات إلى خطوات محددة وتتبع الاحتمالات الشرطية للإجابة الصحيحة عند كل حد خطوة، يمكننا حساب مقاييس تقدم واضحة لكل قسم من العملية، مما يعزز فعالية التغذية الراجعة على مستوى المسار في GRPO.

هذه التقنية الجديدة تجعل تحديث السياسات أكثر دقة وكفاءة بينما نتخطى الحاجة إلى إشرافات وسيطة مُستمدة من الدوران المونت كارلو (Monte Carlo rollouts) أو نماذج مساعدة وتؤكد نجاحها في تجارب متنوعة. حيث أظهرت النتائج تحسينات ملحوظة تصل إلى 2.6 نقطة في دقة المهام الرياضية، و13.7% في تقليل طول التفكير على مهام الرياضيات، و2.4 نقاط و%4 على المهام العامة، مما يدل على قوة التعميم في النتائج.