في عصر الذكاء الاصطناعي المتطور، تتغير مهام نماذج اللغات الضخمة (Large Language Models) من مجرد معالجات نصوص إلى وكلاء مستقلين قادرين على التفاعل والتخطيط. ومع ذلك، تظل مسألة تقييم أدائها الاجتماعي في بيئات متعددة الوكلاء أمراً حاسماً. هنا يأتي دور ابتكار SocialGrid، الذي يهدف إلى تقييم أداء الوكلاء الذكيين في مجالات التخطيط وتنفيذ المهام والذكاء الاجتماعي.
تم تصميم SocialGrid كمجموعة اختبار مستوحاة من لعبة Among Us، حيث تتيح تقييم أداء الوكلاء في مواقف تعاونية تنافسية. توصلت التقييمات إلى نتائج مثيرة للقلق؛ حيث لم يتمكن حتى أقوى نموذج مفتوح (GPT-OSS-120B) من تحقيق أكثر من 60% دقة في إنجاز المهام والتخطيط. لوحظ أن الوكلاء يعانون من الانحصار في سلوكيات متكررة أو الفشل في تخطي عوائق بسيطة.
لحل هذه المشكلة، يقدم SocialGrid خياراً يُعرف بإسم Planning Oracle، مما يساعد على عزل متطلبات التخطيط عن تقييم الذكاء الاجتماعي. ومع ذلك، يبقى الذكاء الاجتماعي تحدياً كاملاً، حيث يفشل الوكلاء في كشف الخداع بنسبة قريبة من الصدفة، ويعتمدون على استراتيجيات ضحلة بدلاً من تحليل الأدلة السلوكية المُتراكمة.
يوفر SocialGrid أيضاً تحليلًا آليًا للفشل وقياسات دقيقة، مما يمكّن المطورين من تشخيص وتحسين وكالاتهم. بالإضافة إلى ذلك، تم إنشاء لوحة صدارة تنافسية باستخدام تقييمات Elo من المنافسات التنافسية، مما يضيف عنصراً من التحدي والنمو في هذا المجال.
SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة
تتوجه نماذج اللغات الضخمة (LLMs) من كفاءة معالجة النصوص إلى دور الوكلاء المستقلين، مما يستدعي تقييم ذكائها الاجتماعي في بيئات متعددة الوكلاء. SocialGrid تتيح تحليل الأداء وتقديم رؤى جديدة حول التفاعل الاجتماعي بين الآلات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
