تقدم مذهل في الذكاء الاصطناعي: كيف تعزز التعلم التعزيزي من قدرات النماذج اللغوية؟
بحث جديد يكشف عن تقنية التعلم التعزيزي في الفضاء المسبق للتدريب، مما يعزز من قدرة النماذج اللغوية على التفكير واستكشاف الحلول. اكتشف كيفية تحسين التعلم وتقليل الأخطاء في عملية التفكير الاصطناعي.
تشهد تقنيات الذكاء الاصطناعي تطوراً ملحوظاً، حيث أظهر بحث جديد كيف يمكن للتعلم التعزيزي القائم على المكافآت القابلة للتحقق (RLVR) أن يعزّز من قدرات النماذج اللغوية الكبيرة (Large Language Models) عن طريق تحسين التوزيع الشرطي P(y|x). ورغم أن هذه التقنية تعدّ قفزة نوعية، إلا أن فعاليتها محدودة بشكل أساسي بتوزيع المخرجات الموجود مسبقاً في النموذج الأساسي.
لإزالة هذا الاختناق، يستخدم الباحثون طريقة جديدة تُعرف باسم PreRL (التعلم التعزيزي في الفضاء المسبق للتدريب)، والتي تركز على تحسين التوزيع الهامشي P(y) من خلال تطبيق تحديثات قائمة على المكافآت بشكل مباشر. لكن، تعتمد التقنيات التقليدية في الدورة التدريبية المسبقة على مجموعات بيانات ثابتة، مما يؤدي إلى تحول في التوزيع يمكن أن يعوق تعزيز التفكير المستهدف.
أظهرت الأبحاث أن PreRL يحقق توافقًا قويًا بين اللوغاريتم P(y) واللوغاريتم P(y|x)، مثبتةً أن هذه الطريقة تمثل بديلاً قابلاً للتطبيق للتعلم التعزيزي القياسي. واكتشف الباحثون آلية حيوية جديدة تُعرف باسم تعزيز العينة السلبية (Negative Sample Reinforcement – NSR) ضمن PreRL. حيث تُعتبر NSR-PreRL وسيلة فعالة لتقليل الفضاءات التي تتضمن تفكيراً خاطئاً، وتزيد من الأفكار الانتقالية والتفكرية بنسبة 14.89x و6.54x على التوالي.
بناءً على هذه الأفكار، طرح الباحثون استراتيجية جديدة تُعرف بتعلم التعزيز في المساحات المزدوجة (Dual Space RL - DSRL)، حيث تعتمد على تعزيز العينة السلبية NSR-PreRL لفتح آفاق تفكير أكبر قبل الانتقال إلى التعلم التعزيزي القياسي لتحسين التفاصيل الدقيقة. وكشفت التجارب الواسعة أن DSRL يتفوق باستمرار على الأسس القوية، مما يثبت أن تقليم الفضاء المسبق للتدريب يُوجه السياسة نحو مساحة تفكير صحيحة ومُحسّنة.
لإزالة هذا الاختناق، يستخدم الباحثون طريقة جديدة تُعرف باسم PreRL (التعلم التعزيزي في الفضاء المسبق للتدريب)، والتي تركز على تحسين التوزيع الهامشي P(y) من خلال تطبيق تحديثات قائمة على المكافآت بشكل مباشر. لكن، تعتمد التقنيات التقليدية في الدورة التدريبية المسبقة على مجموعات بيانات ثابتة، مما يؤدي إلى تحول في التوزيع يمكن أن يعوق تعزيز التفكير المستهدف.
أظهرت الأبحاث أن PreRL يحقق توافقًا قويًا بين اللوغاريتم P(y) واللوغاريتم P(y|x)، مثبتةً أن هذه الطريقة تمثل بديلاً قابلاً للتطبيق للتعلم التعزيزي القياسي. واكتشف الباحثون آلية حيوية جديدة تُعرف باسم تعزيز العينة السلبية (Negative Sample Reinforcement – NSR) ضمن PreRL. حيث تُعتبر NSR-PreRL وسيلة فعالة لتقليل الفضاءات التي تتضمن تفكيراً خاطئاً، وتزيد من الأفكار الانتقالية والتفكرية بنسبة 14.89x و6.54x على التوالي.
بناءً على هذه الأفكار، طرح الباحثون استراتيجية جديدة تُعرف بتعلم التعزيز في المساحات المزدوجة (Dual Space RL - DSRL)، حيث تعتمد على تعزيز العينة السلبية NSR-PreRL لفتح آفاق تفكير أكبر قبل الانتقال إلى التعلم التعزيزي القياسي لتحسين التفاصيل الدقيقة. وكشفت التجارب الواسعة أن DSRL يتفوق باستمرار على الأسس القوية، مما يثبت أن تقليم الفضاء المسبق للتدريب يُوجه السياسة نحو مساحة تفكير صحيحة ومُحسّنة.
📰 أخبار ذات صلة
🤖
أبحاث
GIST: ثورة في استخراج المعرفة متعددة الأنماط وتوجيه الأماكن باستخدام الذكاء الاصطناعي!
أركايف للذكاءمنذ 1 ساعة
🤖
أبحاث
ثورة في أنظمة التفاعل: عقود مراجعة المعتقدات المسجلة مسبقًا
أركايف للذكاءمنذ 1 ساعة
🤖
أبحاث
نقل سلوكات غير آمنة عبر التعلم الخفي: استكشاف أبعاد جديدة في الذكاء الاصطناعي
أركايف للذكاءمنذ 1 ساعة