في عالم الذكاء الاصطناعي (AI)، يعتبر نقل المعرفة من النماذج الكبيرة إلى النماذج الأصغر أمراً حيوياً لزيادة كفاءة الأداء. وقد أظهرت تقنية **On-policy distillation (OPD)** إمكانيات واعدة في هذا المجال، إلا أنها واجهت بعض التحديات خاصةً في سياقات متعددة الجولات.
التحدي في التدريب متعدد الجولات
في دراسة جديدة، تم تحديد مشكلة رئيسية في استخدام OPD في بيئات متعددة الجولات تحت مسمى **Trajectory-Level KL Instability**. تظهر النتائج أن **KL divergence** يرتفع بالتزامن مع انخفاض معدل النجاح، مما يؤدي إلى عدم استقرار في التدريب. وتتزايد الأخطاء مع كل جولة، مما يخرج الطالب عن نطاق دعم المعلم الفعّال.
الحل المبتكر: TCOD
لمعالجة هذه القضية، اقترح الباحثون تقنية **TCOD (Temporal Curriculum On-Policy Distillation)**، وهي إطار عمل بسيط لكنه فعّال. تركز TCOD على التحكم في عمق المسار الذي يتعرض له الطالب وتدريجياً توسيعه من المهام القصيرة إلى الأطول وفق جدول زمني زمني.
نتائج التجارب
أظهرت التجارب عبر أربعة أزواج من الطلاب والمعلمين في ثلاث معايير لمساعدات متعددة الجولات (ALFWorld، WebShop، ScienceWorld) أن TCOD تساهم في تقليل تصاعد KL وتعزز استقراره خلال التدريب. وقد أدت هذه التقنية إلى تحسين أداء الوكيل بنسبة تصل إلى 18 نقطة مقارنةً بتقنية OPD التقليدية. ونتائج أخرى أظهرت أن TCOD يمكن أن تتجاوز أداء المعلم وتظهر قدرة على التكيف مع المهام التي يفشل بها المعلم.
سؤال للتفكير
كيف تعتقد أن هذه التقنية ستؤثر على مستقبل الذكاء الاصطناعي وقدراته في مختلف المجالات؟
