في عالم الذكاء الاصطناعي، يُعتبر التعلم المعزز في وقت الاختبار (TTRL) تقنية ثورية تسمح للنماذج بالتكيف مع الظروف المتغيرة، لكن هذا التكيف قد يؤدي إلى تعريض النماذج لأخطاء غير مرغوب فيها بسبب الضوضاء في البيانات. هذا ما وجدته دراسة جديدة تناولت تأثير الإشارات الخاطئة في استدلال الرياضيات، حيث تمثل الإجابات ذات التناسق المتوسط مصدرًا رئيسيًا للاختلاط في المكافآت.

من خلال رؤية هذا التحدي، تم اقتراح إطار عمل موحد يُعرف باسم التعلم المعزز في وقت الاختبار مع تصحيح التحيز وإزالة الضجيج (DDRL). يستخدم هذا الإطار استراتيجية أخذ عينات تعتمد على التكرار لاستبعاد العينات الغامضة، مع الحفاظ على توازن بين الأمثلة الإيجابية والسلبية.

إضافة إلى ذلك، يقوم النظام بتقدير ميزة غير متحيزة من خلال تثبيت المزايا، مما يهدف إلى تصحيح أي تحيز ناتج عن تحسين السياسات النسبية. كما يشمل الإطار مرحلة تحسين جماعية تعتمد على موافقة البيانات التي تم رفضها، مما يتيح تحديثات فعّالة ومستقرة للنماذج. لقد أظهرت التجارب على ثلاثة نماذج لغوية ضخمة عبر مجموعة متنوعة من اختبارات استدلال الرياضيات أن إطار DDRL يتفوق باستمرار على المعايير الحالية. يمكنكم متابعة التطورات الحماسية قريبًا على صفحة المشروع في GitHub.