SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة

في عصر الذكاء الاصطناعي المتطور، تتغير مهام نماذج اللغات الضخمة (Large Language Models) من مجرد معالجات نصوص إلى وكلاء مستقلين قادرين على التفاعل والتخطيط. ومع ذلك، تظل مسألة تقييم أدائها الاجتماعي في بيئات متعددة الوكلاء أمراً حاسماً. هنا يأتي دور ابتكار SocialGrid، الذي يهدف إلى تقييم أداء الوكلاء الذكيين في مجالات التخطيط وتنفيذ المهام والذكاء الاجتماعي.

تم تصميم SocialGrid كمجموعة اختبار مستوحاة من لعبة Among Us، حيث تتيح تقييم أداء الوكلاء في مواقف تعاونية تنافسية. توصلت التقييمات إلى نتائج مثيرة للقلق؛ حيث لم يتمكن حتى أقوى نموذج مفتوح (GPT-OSS-120B) من تحقيق أكثر من 60% دقة في إنجاز المهام والتخطيط. لوحظ أن الوكلاء يعانون من الانحصار في سلوكيات متكررة أو الفشل في تخطي عوائق بسيطة.

لحل هذه المشكلة، يقدم SocialGrid خياراً يُعرف بإسم Planning Oracle، مما يساعد على عزل متطلبات التخطيط عن تقييم الذكاء الاجتماعي. ومع ذلك، يبقى الذكاء الاجتماعي تحدياً كاملاً، حيث يفشل الوكلاء في كشف الخداع بنسبة قريبة من الصدفة، ويعتمدون على استراتيجيات ضحلة بدلاً من تحليل الأدلة السلوكية المُتراكمة.

يوفر SocialGrid أيضاً تحليلًا آليًا للفشل وقياسات دقيقة، مما يمكّن المطورين من تشخيص وتحسين وكالاتهم. بالإضافة إلى ذلك، تم إنشاء لوحة صدارة تنافسية باستخدام تقييمات Elo من المنافسات التنافسية، مما يضيف عنصراً من التحدي والنمو في هذا المجال.

SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!