🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

الهزيمة تصنع القوة: كيف تعزز الانعكاسات المنظمة دقة تفاعلات الذكاء الاصطناعي

تقدم الدراسة طريقة جديدة لتحسين دقة نماذج الذكاء الاصطناعي أثناء التفاعل مع الأدوات من خلال الانعكاس المنظم. هذه الطريقة تجعل التعلم من الأخطاء أكثر فعالية، مما يؤدي إلى تحسين الأداء في المواقف المعقدة.

يتزايد الاعتماد على نماذج اللغات الضخمة (Large Language Models) في مختلف الصناعات والتطبيقات، مما يجعل تحسين دقتها أثناء التفاعل مع الأدوات قضية محورية. في دراسة حديثة، تم تقديم مفهوم "الانعكاس المنظم" كأداة قوية لتطوير هذه النماذج؛ حيث يعزز من قدراتها على التعلم من الأخطاء.

الحقيقة أن تدريب نماذج اللغات الضخمة عادةً ما يتضمن طرق المراقبة الخاضعة أو التعلم المعزز بشكل عام، والتي تركز على تحسين استدعاء الأدوات الفردية. لكن المشاكل تظهر عندما تعتمد ممارسات الانعكاس على نصوص سريعة أو تفكير أحادي الاتجاه، مما يدفع النموذج لتأمل نفسه دون التعلم الفعال لتشخيص الأخطاء وإصلاحها.

يقترح البحث الجديد "الانعكاس المنظم" كعملية توقظ ذكاء النموذج ليقوم بتشخيص فشله بدقة باستخدام أدلة من الخطوة السابقة، ومن ثم يقترح اتصالاً تصحيحياً يمكن تنفيذه. يتم دمج أهداف DAPO و GSPO مع مخطط مكافآت معتمد على استخدام الأدوات، مما يؤدي إلى تحسين استراتيجية العمل خطوة بخطوة: التفكير، ثم الاتصال، ثم النتائج النهائية.

تم تقديم أداة تقييم جديدة تُدعى Tool-Reflection-Bench كمرجع خفيف الوزن، حيث يتم اختبار الصلاحية الهيكلية، وقابلية التنفيذ، وصحة المعلمات، واتساق النتائج بشكل برمجي. تتكون المهام من مسارات مصغرة تتضمن الاتصال الخاطئ، والانعكاس، والاتصال المصحح، مما يضمن تدريباً فعالاً وتقييمًا شفافًا.

تظهر التجارب على نموذج BFCL v3 وTool-Reflection-Bench تحسينًا كبيرًا في النجاح في استدعاءات الأدوات متعددة الأدوار واستعادة الأخطاء، مع تقليل الاتصالات المكررة. تشير النتائج إلى أن جعل الانعكاس واضحًا وتحسينه مباشرةً يؤدي إلى زيادة موثوقية التفاعل مع الأدوات ويوفر طريقة قابلة للتكرار للوكيل للتعلم من الأخطاء.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة