Ailoxa Logo

🏷️ #تقييم الأداء

22 مقال

ثورة جديدة في معالجة وثائق المؤسسات: تقييم موحد لتحسين الذكاء الاصطناعي!
أبحاث

ثورة جديدة في معالجة وثائق المؤسسات: تقييم موحد لتحسين الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر
ثورة في تقييم أداء الوكلاء ثلاثي اللغة: اكتشاف الأسرار من خلال الأخطاء!
نماذج لغوية

ثورة في تقييم أداء الوكلاء ثلاثي اللغة: اكتشاف الأسرار من خلال الأخطاء!

أركايف للذكاءمنذ 1 شهر
قفزة مذهلة في تقييم أنظمة الجيل المعزز: بيانات StratRAG الجديدة!
أبحاث

قفزة مذهلة في تقييم أنظمة الجيل المعزز: بيانات StratRAG الجديدة!

أركايف للذكاءمنذ 1 شهر
ثورة في تقييم الذكاء الاصطناعي: ProEval لاكتشاف الفشل بشكل استباقي!
أبحاث

ثورة في تقييم الذكاء الاصطناعي: ProEval لاكتشاف الفشل بشكل استباقي!

أركايف للذكاءمنذ 1 شهر
ثورة جديدة في البحث عن وكلاء الذكاء الاصطناعي: تعرف على معيار AgentSearchBench!
أبحاث

ثورة جديدة في البحث عن وكلاء الذكاء الاصطناعي: تعرف على معيار AgentSearchBench!

أركايف للذكاءمنذ 1 شهر
الهروب من فخ الاتفاق: إشارات الدفاع لتقييم الذكاء الاصطناعي القائم على القواعد
أبحاث

الهروب من فخ الاتفاق: إشارات الدفاع لتقييم الذكاء الاصطناعي القائم على القواعد

أركايف للذكاءمنذ 1 شهر
هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟
نماذج لغوية

هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟

أركايف للذكاءمنذ 1 شهر
ثورة ذكاء اصطناعي: تقييم ملخصات الاجتماعات بجودة عالية بخط أنابيب متعدد الاستخدامات!
أدوات

ثورة ذكاء اصطناعي: تقييم ملخصات الاجتماعات بجودة عالية بخط أنابيب متعدد الاستخدامات!

أركايف للذكاءمنذ 1 شهر
اكتشاف احتيال السفر: معيار جديد لتقييم الشبكات العصبية الرسومية (GNN) في الكشف عن شبكات الاحتيال
أبحاث

اكتشاف احتيال السفر: معيار جديد لتقييم الشبكات العصبية الرسومية (GNN) في الكشف عن شبكات الاحتيال

أركايف للذكاءمنذ 1 شهر
اختبار التحول: طريقة جديدة للكشف عن ذاكرة نماذج اللغات الضخمة في إصلاح البرمجيات
أبحاث

اختبار التحول: طريقة جديدة للكشف عن ذاكرة نماذج اللغات الضخمة في إصلاح البرمجيات

أركايف للذكاءمنذ 1 شهر
مقارنة مثيرة لبروتوكولات التواصل بين الوكلاء في تنسيق المهام: القفزة نحو الأداء المحسن!
أبحاث

مقارنة مثيرة لبروتوكولات التواصل بين الوكلاء في تنسيق المهام: القفزة نحو الأداء المحسن!

أركايف للذكاءمنذ 1 شهر
دربنشر: هل يستطيع وكيلك التعرف على الكيانات واسترجاع خصائصها وإجراء الحسابات؟
أبحاث

دربنشر: هل يستطيع وكيلك التعرف على الكيانات واسترجاع خصائصها وإجراء الحسابات؟

أركايف للذكاءمنذ 1 شهر
انعدام التناسق بين الوسائط: تحديات نماذج اللغة متعددة الأنماط
أبحاث

انعدام التناسق بين الوسائط: تحديات نماذج اللغة متعددة الأنماط

أركايف للذكاءمنذ 1 شهر
ثورة الذكاء الاصطناعي في المنازل الذكية: إطلاق PersonalHomeBench لتقييم الأداء الشخصي
أبحاث

ثورة الذكاء الاصطناعي في المنازل الذكية: إطلاق PersonalHomeBench لتقييم الأداء الشخصي

أركايف للذكاءمنذ 1 شهر
هل تحلم الوكلاء بصدفة الجذور؟ تقييم مبتكر لوكلاء نماذج اللغة الكبيرة في تحديات التقاط العلم
أبحاث

هل تحلم الوكلاء بصدفة الجذور؟ تقييم مبتكر لوكلاء نماذج اللغة الكبيرة في تحديات التقاط العلم

أركايف للذكاءمنذ 1 شهر
MEDLEY-BENCH: ثورة جديدة في تقييم الذكاء الاصطناعي في العمليات المعرفية
أبحاث

MEDLEY-BENCH: ثورة جديدة في تقييم الذكاء الاصطناعي في العمليات المعرفية

أركايف للذكاءمنذ 2 شهر
SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة
أبحاث

SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة

أركايف للذكاءمنذ 2 شهر
هل تستطيع نماذج اللغات الضخمة أن تحل محل البشر في الأبحاث السلوكية؟
أبحاث

هل تستطيع نماذج اللغات الضخمة أن تحل محل البشر في الأبحاث السلوكية؟

أركايف للذكاءمنذ 2 شهر
اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة
أبحاث

اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة

أركايف للذكاءمنذ 2 شهر
ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!
أبحاث

ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!

أركايف للذكاءمنذ 2 شهر