تشهد تقنية التعلم المعزز مع المكافآت القابلة للتحقق (RLVR) ثورة في مساعدتها لتعزيز قدرات التفكير في نماذج اللغة الكبيرة (LLMs). ومع ذلك، تكافح هذه التقنية مع عدم التوازن الأساسي بين حسابات التكاليف والذاكرة؛ حيث إن توليد العروض يشغل موارد منخفضة بينما تحديثات السياسات تعاني من تكاليف عالية في جدول التواصل واستخدام الذاكرة.

لمعالجة هذه التحديات، يقدم الباحثون تقنية جديدة باسم PODS (تحسين السياسات مع تقليل العروض). هذه التقنية تفصل بين توليد العروض وتحديث السياسات عن طريق التدريب فقط على مجموعة مختارة بشكل استراتيجي من العروض، مما يحافظ على جودة التعلم مع تقليل تكاليف التحديث بشكل كبير.

تعتمد PODS على معيار اختيار مجموعة فرعية قابل للتطبيق، يُعرف بتقنية التقليل بأقصى تباين (max-variance down-sampling)، التي تهدف لتعظيم تنوع المكافآت. وقد تم تطوير تنفيذ فعال يعالج هذه المتطلبات بكفاءة وسرعة مذهلة.

أظهرت التجارب أن تقنية تحسين السياسات النسبية الجماعية (GRPO) مع PODS تحقق دقة اختبار تصل إلى 1.7 مرة أسرع مقارنةً بإصدار GRPO التقليدي، وذلك في مجمل مختلف اختبارات التفكير وتكوينات الأجهزة التي تم اختبارها.

تعتبر هذه التطورات علامة على مستقبل مشرق لتعزيز الذكاء الاصطناعي، مما يفتح المجال أمام تطبيقات جديدة وغير مسبوقة في هذا المجال.