قفزة مذهلة في تقييم الوكلاء الذكيين: أداة MarketBench تكشف المستور!

# قفزة مذهلة في تقييم الوكلاء الذكيين: أداة MarketBench تكشف المستور!

تعتبر الأسواق وسيلة واعدة لتنسيق أنشطة الوكلاء الذكيين (AI Agents) لأسباب مشابهة لتلك التي تبرر وجود الأسواق على نطاق أوسع. وفي سبيل المشاركة الفعالة في هذه الأسواق، يحتاج الوكلاء إلى إشارات تحمل معلومات دقيقة حول قدراتهم في إنجاز المهام المستهدفة والتكاليف المرتبطة بذلك.

ما هي MarketBench؟

تقدم MarketBench معياراً جديداً يرمي إلى تقييم ما إذا كان الوكلاء الذكيون يملكون هذه القدرات المطلوبة. نستخدم مجموعة تضم 93 مهمة من معيار SWE-bench Lite، الذي يختبر مهارات البرمجة، مع ستة نماذج لغوية (LLMs) تم إصدارها مؤخراً.

نتائح الدراسة

أظهرت النتائج أن هذه النماذج اللغوية تعاني من سوء التقدير؛ حيث كان تقديرها لفرص النجاح واستخدام الرموز غير دقيق. كما أن المزادات التي أُقيمت استناداً إلى هذه التقارير الذاتية اتجهت بعيداً عن جدول التخصيص المليء بالمعلومات.

لكن بعد تدخل متبوع أضفنا فيه معلومات من تجارب سابقة حول القدرات، تحسنت دقة التقديرات، على الرغم من أنها قلصت الفجوة بين التقديرات ومؤشر البيانات الكاملة بشكل متواضع فقط.

نحن نوضح أيضاً أداء أسلوب قائم على السوق مع هذه النماذج. تشير نتائجنا إلى أن التقييم الذاتي يشكل عنق الزجاجة الرئيسي في التنسيق على طراز السوق بين الوكلاء الذكيين.

خلاصة

إن التطور الذي قدمته MarketBench يعد خطوة مهمة نحو تحسين الأداء في أسواق الذكاء الاصطناعي، مما يُبرز أهمية توفير معلومات دقيقة لوكلاء الذكاء الاصطناعي لضمان نجاحهم.

هل تعتقد أن نماذج الذكاء الاصطناعي يمكن أن تحسن من أدائها إذا كانت مزودة بمعلومات دقيقة حول قدراتها؟

قفزة مذهلة في تقييم الوكلاء الذكيين: أداة MarketBench تكشف المستور!

ما هي MarketBench؟

نتائح الدراسة

خلاصة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!