🏷️ #تقييم الأداء
4 مقال
🤖
أبحاث
اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة
أركايف للذكاءمنذ 2 يوم
🤖
أبحاث
ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!
أركايف للذكاءمنذ 2 يوم
🤖
نماذج لغوية
RoboLab: نقلة نوعية في محاكاة الروبوتات وتحليل السياسات العامة
أركايف للذكاءمنذ 2 يوم
🤖
أبحاث
قفزة مذهلة في الذكاء الاصطناعي: معيار Frontier-Eng لتقييم الوكلاء الذاتيين في مهام هندسية حقيقية!
أركايف للذكاءمنذ 4 يوم
👁 1