تجنب الأخطاء في التعلم المعزز: إطار مبتكر لتحسين استدلال الرياضيات!

في عالم الذكاء الاصطناعي، يُعتبر التعلم المعزز في وقت الاختبار (TTRL) تقنية ثورية تسمح للنماذج بالتكيف مع الظروف المتغيرة، لكن هذا التكيف قد يؤدي إلى تعريض النماذج لأخطاء غير مرغوب فيها بسبب الضوضاء في البيانات. هذا ما وجدته دراسة جديدة تناولت تأثير الإشارات الخاطئة في استدلال الرياضيات، حيث تمثل الإجابات ذات التناسق المتوسط مصدرًا رئيسيًا للاختلاط في المكافآت.

من خلال رؤية هذا التحدي، تم اقتراح إطار عمل موحد يُعرف باسم التعلم المعزز في وقت الاختبار مع تصحيح التحيز وإزالة الضجيج (DDRL). يستخدم هذا الإطار استراتيجية أخذ عينات تعتمد على التكرار لاستبعاد العينات الغامضة، مع الحفاظ على توازن بين الأمثلة الإيجابية والسلبية.

إضافة إلى ذلك، يقوم النظام بتقدير ميزة غير متحيزة من خلال تثبيت المزايا، مما يهدف إلى تصحيح أي تحيز ناتج عن تحسين السياسات النسبية. كما يشمل الإطار مرحلة تحسين جماعية تعتمد على موافقة البيانات التي تم رفضها، مما يتيح تحديثات فعّالة ومستقرة للنماذج. لقد أظهرت التجارب على ثلاثة نماذج لغوية ضخمة عبر مجموعة متنوعة من اختبارات استدلال الرياضيات أن إطار DDRL يتفوق باستمرار على المعايير الحالية. يمكنكم متابعة التطورات الحماسية قريبًا على صفحة المشروع في GitHub.

تجنب الأخطاء في التعلم المعزز: إطار مبتكر لتحسين استدلال الرياضيات!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!