🏷️ #تقييم الأداء
22 مقال
أبحاث
ثورة جديدة في معالجة وثائق المؤسسات: تقييم موحد لتحسين الذكاء الاصطناعي!
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
ثورة في تقييم أداء الوكلاء ثلاثي اللغة: اكتشاف الأسرار من خلال الأخطاء!
أركايف للذكاءمنذ 1 شهر
أبحاث
قفزة مذهلة في تقييم أنظمة الجيل المعزز: بيانات StratRAG الجديدة!
أركايف للذكاءمنذ 1 شهر
أبحاث
ثورة في تقييم الذكاء الاصطناعي: ProEval لاكتشاف الفشل بشكل استباقي!
أركايف للذكاءمنذ 1 شهر
أبحاث
ثورة جديدة في البحث عن وكلاء الذكاء الاصطناعي: تعرف على معيار AgentSearchBench!
أركايف للذكاءمنذ 1 شهر
أبحاث
الهروب من فخ الاتفاق: إشارات الدفاع لتقييم الذكاء الاصطناعي القائم على القواعد
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟
أركايف للذكاءمنذ 1 شهر
أدوات
ثورة ذكاء اصطناعي: تقييم ملخصات الاجتماعات بجودة عالية بخط أنابيب متعدد الاستخدامات!
أركايف للذكاءمنذ 1 شهر
أبحاث
اكتشاف احتيال السفر: معيار جديد لتقييم الشبكات العصبية الرسومية (GNN) في الكشف عن شبكات الاحتيال
أركايف للذكاءمنذ 1 شهر
أبحاث
اختبار التحول: طريقة جديدة للكشف عن ذاكرة نماذج اللغات الضخمة في إصلاح البرمجيات
أركايف للذكاءمنذ 1 شهر
أبحاث
مقارنة مثيرة لبروتوكولات التواصل بين الوكلاء في تنسيق المهام: القفزة نحو الأداء المحسن!
أركايف للذكاءمنذ 1 شهر
أبحاث
دربنشر: هل يستطيع وكيلك التعرف على الكيانات واسترجاع خصائصها وإجراء الحسابات؟
أركايف للذكاءمنذ 1 شهر
أبحاث
انعدام التناسق بين الوسائط: تحديات نماذج اللغة متعددة الأنماط
أركايف للذكاءمنذ 1 شهر
أبحاث
ثورة الذكاء الاصطناعي في المنازل الذكية: إطلاق PersonalHomeBench لتقييم الأداء الشخصي
أركايف للذكاءمنذ 1 شهر
أبحاث
هل تحلم الوكلاء بصدفة الجذور؟ تقييم مبتكر لوكلاء نماذج اللغة الكبيرة في تحديات التقاط العلم
أركايف للذكاءمنذ 1 شهر
أبحاث
MEDLEY-BENCH: ثورة جديدة في تقييم الذكاء الاصطناعي في العمليات المعرفية
أركايف للذكاءمنذ 2 شهر
أبحاث
SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة
أركايف للذكاءمنذ 2 شهر
أبحاث
هل تستطيع نماذج اللغات الضخمة أن تحل محل البشر في الأبحاث السلوكية؟
أركايف للذكاءمنذ 2 شهر
أبحاث
اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة
أركايف للذكاءمنذ 2 شهر
أبحاث
ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!
أركايف للذكاءمنذ 2 شهر
1 / 2التالي →
