سباق الوكلاء المذهل: أدوات قوية مع مهارات تنقل ضعيفة!
تظهر دراسة جديدة أن الوكلاء الذكاء الاصطناعي يواجهون تحديات كبيرة في التنقل رغم قدرتهم على استخدام الأدوات بشكل فعال. تعرف على benchmark الجديد الذي يسلط الضوء على هذه الفجوة ومعاييره المتقدمة.
في عالم الذكاء الاصطناعي، تعد القدرة على استخدام الأدوات من المهارات الأساسية التي تُسهم في تحسين أداء الوكلاء (agents). لكن، ما مدى فعالية هذه القدرات في ظل التحديات التي تواجه التنقل بين المعلومات؟
تكشف دراسة جديدة، بعنوان "سباق الوكلاء المذهل" (The Amazing Agent Race - AAR)، عن فجوة شائكة في أداء الوكلاء الذكاء الاصطناعي عند استخدامهم للأدوات. على الرغم من ضعف تنقل بعض هذه الوكلاء، إلا أنهم يظهرون قوة ملحوظة في استخدام الأدوات.
تتمثل المشكلة في أن معظم مقاييس الأداء الحالية تستند إلى سيناريوهات خطية، حيث وجدت التحليلات أن ما بين 55% إلى 100% من الحالات محصورة في سلسلة بسيطة تتضمن من خطوتين إلى خمس خطوات. وبالتالي، تقدم AAR مجموعة جديدة من التحديات تتضمن ألغازًا معقدة تُعرف بالرسوم البيانية غير الدائرية (Directed Acyclic Graphs - DAG) التي تستخدم سلاسل أدوات معقدة.
تشمل المبادرة إطلاق 1,400 حالة اختبار موزعة على فئتين: فئة تسلسلية (800 مهمة) وفئة تركيبية (600 مهمة). يتعين على الوكلاء التنقل عبر ويكيبيديا، تنفيذ سلاسل أدوات متعددة الخطوات، وتجميع النتائج إلى إجابة قابلة للتحقق.
تسعى AAR إلى تقديم تقييم شامل من خلال ثلاث مقاييس متكاملة: دقة خط النهاية، معدل زيارة نقاط التوقف، ومعدل إكمال العقبات، والتي تساعد في تشخيص الأخطاء المتعلقة بالتنقل واستخدام الأدوات.
تكشف النتائج أن أفضل الوكلاء لم يحققوا دقة أكثر من 37.2%، مع انتشار أخطاء التنقل بشكل واضح (27% إلى 52% من التجارب) بينما كانت أخطاء استخدام الأدوات أقل من 17%. كما أظهرت الدراسات أن هيكل الوكلاء له أثر كبير على أدائهم، حيث أظهر نموذج Claude Code نتائج مشابهة لنموذج Codex CLI بالرغم من اختزال Tokens.
من الواضح أن الوكلاء يعانون أكثر في التنقل نحو الصفحات الصحيحة بدلاً من مجرد استدعاء الأدوات، مما يُظهر الفجوة التي تواجهها المقاييس الخطية في قياس الأداء الفعلي. لمزيد من التفاصيل، يمكنكم زيارة [الصفحة الرسمية للمشروع](https://minnesotanlp.github.io/the-amazing-agent-race).
تكشف دراسة جديدة، بعنوان "سباق الوكلاء المذهل" (The Amazing Agent Race - AAR)، عن فجوة شائكة في أداء الوكلاء الذكاء الاصطناعي عند استخدامهم للأدوات. على الرغم من ضعف تنقل بعض هذه الوكلاء، إلا أنهم يظهرون قوة ملحوظة في استخدام الأدوات.
تتمثل المشكلة في أن معظم مقاييس الأداء الحالية تستند إلى سيناريوهات خطية، حيث وجدت التحليلات أن ما بين 55% إلى 100% من الحالات محصورة في سلسلة بسيطة تتضمن من خطوتين إلى خمس خطوات. وبالتالي، تقدم AAR مجموعة جديدة من التحديات تتضمن ألغازًا معقدة تُعرف بالرسوم البيانية غير الدائرية (Directed Acyclic Graphs - DAG) التي تستخدم سلاسل أدوات معقدة.
تشمل المبادرة إطلاق 1,400 حالة اختبار موزعة على فئتين: فئة تسلسلية (800 مهمة) وفئة تركيبية (600 مهمة). يتعين على الوكلاء التنقل عبر ويكيبيديا، تنفيذ سلاسل أدوات متعددة الخطوات، وتجميع النتائج إلى إجابة قابلة للتحقق.
تسعى AAR إلى تقديم تقييم شامل من خلال ثلاث مقاييس متكاملة: دقة خط النهاية، معدل زيارة نقاط التوقف، ومعدل إكمال العقبات، والتي تساعد في تشخيص الأخطاء المتعلقة بالتنقل واستخدام الأدوات.
تكشف النتائج أن أفضل الوكلاء لم يحققوا دقة أكثر من 37.2%، مع انتشار أخطاء التنقل بشكل واضح (27% إلى 52% من التجارب) بينما كانت أخطاء استخدام الأدوات أقل من 17%. كما أظهرت الدراسات أن هيكل الوكلاء له أثر كبير على أدائهم، حيث أظهر نموذج Claude Code نتائج مشابهة لنموذج Codex CLI بالرغم من اختزال Tokens.
من الواضح أن الوكلاء يعانون أكثر في التنقل نحو الصفحات الصحيحة بدلاً من مجرد استدعاء الأدوات، مما يُظهر الفجوة التي تواجهها المقاييس الخطية في قياس الأداء الفعلي. لمزيد من التفاصيل، يمكنكم زيارة [الصفحة الرسمية للمشروع](https://minnesotanlp.github.io/the-amazing-agent-race).