في عالم تطور الذكاء الاصطناعي، يعتبر تطوير الوكلاء العامين (General Tool Agents) تحدياً كبيراً. يتطلب هذا التطوير الانتقال من تنفيذ تعليمات بسيطة إلى إنجاز مهام معقدة تعكس احتياجات الإنتاجية في العالم الحقيقي. ومع ذلك، كانت المعايير المستخدمة في تقييم أداء هذه الوكلاء تعاني من عدم التناسق مع المتطلبات الواقعية، حيث اعتمدت على استفسارات مولدة بواسطة الذكاء الاصطناعي، وأدوات وهمية، وانتقاد محدود لكفاءة النظام.
لذا، تم تقديم GTA-2 كمعيار هرمي لتقييم الوكلاء العامين، يمتد من استخدام الأدوات بأسلوب ضيق إلى تدفقات العمل المفتوحة. يتمتع هذا المعيار بواقعية استخدم البيانات الحقيقية من الاستفسارات والأدوات المعتمدة، إلى جانب سياقات متنوعة. يتكون GTA-2 من عنصرين رئيسيين:
1. **GTA-Atomic**: يستند إلى معيار GTA السابق، ويقيم دقة استخدام الأدوات على المدى القصير مقارنةً بالمهام المغلقة.
2. **GTA-Workflow**: يقدم مهام طويلة الأمد ومفتوحة تتطلب إنجازاً واقعياً من البداية إلى النهاية.
لتقييم المهام المفتوحة، يقترح المعيار آلية تقييم قائمة على نقاط التحقق التكرارية، والتي تقوم بتفكيك الأهداف إلى أهداف فرعية قابلة للتحقق، مما يمكّن من تقييم موحد لقدرات النماذج وأطر تنفيذ الوكلاء.
أظهرت التجارب فجوة واضحة في القدرة: فعلى الرغم من أن النماذج العليا تعاني بالفعل من صعوبات في المهام البسيطة (تحت 50%)، إلا أنها فشلت بشكل كبير في تدفقات العمل، حيث حققت أفضل النماذج نجاحًا بنسبة 14.39% فقط. كما أظهرت التحليلات أن التغذية الراجعة الموجهة بواسطة نقاط التحقق تعزز الأداء، في حين أن الأطر المتقدمة مثل Manus وOpenClaw تدعم بشكل كبير إنجاز تدفقات العمل، مما يبرز أهمية تصميم آليات التنفيذ بما يتجاوز القدرة الأساسية للنموذج. هذه النتائج توفر إرشادات هامة لتطوير مساعدين شخصيين ومهنيين موثوقين.
ستكون مجموعة البيانات والكود متاحة عبر الرابط: [https://github.com/open-compass/GTA](https://github.com/open-compass/GTA)
GTA-2: ثورة في تقييم الوكلاء العامين من الاستخدام البسيط للأدوات إلى مهام العالم الحقيقي المعقدة
ظهور GTA-2 يغير قواعد اللعبة في تقييم الوكلاء العامين، إذ ينتقل من تنفيذ تعليمات بسيطة إلى التعامل مع تدفقات عمل واقعية معقدة. يعتمد هذا المعيار الجديد على بيانات حقيقية لتحسين قدرة الأنظمة على الأداء الفعال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
