في خطوة ثورية نحو تطوير الذكاء الاصطناعي، تم تقديم منصة جديدة تحمل اسم "AgencyBench"، والتي تهدف إلى تقييم الأداء الحقيقي للوكالات الذاتية (Autonomous Agents) المستندة إلى نماذج اللغات الضخمة (Large Language Models). تتجاوز هذه المنصة الحدود التقليدية لتقييم الوكالات، حيث تركز على قياس 6 قدرات أساسية عبر 32 سيناريو واقعي يتطلب أداءً متنوعًا ومعقدًا.
تُعتبر التقييمات الحالية غير كافية، حيث تتركز بشكل أساسي على قدرة واحدة لكل نموذج، مما يعكس البيئات البسيطة دون الأخذ في الاعتبار السيناريوهات المدهشة التي قد يواجهها الذكاء الاصطناعي في العالم الحقيقي. تضم تجربة AgencyBench 138 مهمةً تشمل استفسارات ونتائج محددة، مما يضمن تقييمًا شاملاً ودقيقًا.
لضمان تقييم آلي فعال، تم استخدام وكيل محاكاة المستخدم لتقديم ملاحظات متكررة، بالإضافة إلى استخدام بيئة Docker لتقييم الأداء الوظيفي والبصري. أسفرت التجارب عن اكتشاف أن النماذج المغلقة المصدر تتفوق بشكل ملحوظ على النماذج المفتوحة المصدر، مما يبرز الفجوات في الكفاءة والقدرة على التصحيح الذاتي المدفوع بالتغذية الراجعة.
يتضح أيضاً أن النماذج البراءة تحمل أداءً متميزًا ضمن أنظمتها الأصلية، بينما تُظهر النماذج المفتوحة أداءً مميزًا في سياقات محددة. تأخذ AgencyBench على عاتقها أن تساهم في التطوير المستدام للوكالات الذاتية القادمة، مؤكدةً على أهمية امتزاج هيكل النموذج مع الأطر الوكالية.
لمن يرغب في معرفة المزيد، يمكنكم زيارة [الرابط](https://github.com/GAIR-NLP/AgencyBench) لرؤية مجموعة المعايير وأدوات التقييم كاملةً. ما رأيكم في هذا التطور المثير؟ شاركونا بأفكاركم في التعليقات!
أجندة AgencyBench: معايير جديدة لقياس قدرات الوكالات الذاتية في سياقات العالم الحقيقي
تمثل منصة AgencyBench معايير جديدة في قياس أداء الوكالات الذاتية المستندة إلى نماذج اللغات الضخمة، من خلال تقييم 6 قدرات أساسية في 32 سيناريو حقيقي. هذه المبادرة تعيد تعريف كيفية تقييم وتقويم أداء الذكاء الاصطناعي في مهام واقعية معقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
