ثورة في تعليم الذكاء الاصطناعي: اكتشاف مذهل لتقنية TCOD

# ثورة في تعليم الذكاء الاصطناعي: اكتشاف مذهل لتقنية TCOD

في عالم الذكاء الاصطناعي (AI)، يعتبر نقل المعرفة من النماذج الكبيرة إلى النماذج الأصغر أمراً حيوياً لزيادة كفاءة الأداء. وقد أظهرت تقنية **On-policy distillation (OPD)** إمكانيات واعدة في هذا المجال، إلا أنها واجهت بعض التحديات خاصةً في سياقات متعددة الجولات.

التحدي في التدريب متعدد الجولات

في دراسة جديدة، تم تحديد مشكلة رئيسية في استخدام OPD في بيئات متعددة الجولات تحت مسمى **Trajectory-Level KL Instability**. تظهر النتائج أن **KL divergence** يرتفع بالتزامن مع انخفاض معدل النجاح، مما يؤدي إلى عدم استقرار في التدريب. وتتزايد الأخطاء مع كل جولة، مما يخرج الطالب عن نطاق دعم المعلم الفعّال.

الحل المبتكر: TCOD

لمعالجة هذه القضية، اقترح الباحثون تقنية **TCOD (Temporal Curriculum On-Policy Distillation)**، وهي إطار عمل بسيط لكنه فعّال. تركز TCOD على التحكم في عمق المسار الذي يتعرض له الطالب وتدريجياً توسيعه من المهام القصيرة إلى الأطول وفق جدول زمني زمني.

نتائج التجارب

أظهرت التجارب عبر أربعة أزواج من الطلاب والمعلمين في ثلاث معايير لمساعدات متعددة الجولات (ALFWorld، WebShop، ScienceWorld) أن TCOD تساهم في تقليل تصاعد KL وتعزز استقراره خلال التدريب. وقد أدت هذه التقنية إلى تحسين أداء الوكيل بنسبة تصل إلى 18 نقطة مقارنةً بتقنية OPD التقليدية. ونتائج أخرى أظهرت أن TCOD يمكن أن تتجاوز أداء المعلم وتظهر قدرة على التكيف مع المهام التي يفشل بها المعلم.