🏷️ #تقييم الأداء

22 مقال

ثورة جديدة في معالجة وثائق المؤسسات: تقييم موحد لتحسين الذكاء الاصطناعي!

ثورة جديدة في معالجة وثائق المؤسسات: تقييم موحد لتحسين الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم أداء الوكلاء ثلاثي اللغة: اكتشاف الأسرار من خلال الأخطاء!

نماذج لغوية

ثورة في تقييم أداء الوكلاء ثلاثي اللغة: اكتشاف الأسرار من خلال الأخطاء!

أركايف للذكاءمنذ 1 شهر

قفزة مذهلة في تقييم أنظمة الجيل المعزز: بيانات StratRAG الجديدة!

قفزة مذهلة في تقييم أنظمة الجيل المعزز: بيانات StratRAG الجديدة!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم الذكاء الاصطناعي: ProEval لاكتشاف الفشل بشكل استباقي!

ثورة في تقييم الذكاء الاصطناعي: ProEval لاكتشاف الفشل بشكل استباقي!

أركايف للذكاءمنذ 1 شهر

ثورة جديدة في البحث عن وكلاء الذكاء الاصطناعي: تعرف على معيار AgentSearchBench!

ثورة جديدة في البحث عن وكلاء الذكاء الاصطناعي: تعرف على معيار AgentSearchBench!

أركايف للذكاءمنذ 1 شهر

الهروب من فخ الاتفاق: إشارات الدفاع لتقييم الذكاء الاصطناعي القائم على القواعد

الهروب من فخ الاتفاق: إشارات الدفاع لتقييم الذكاء الاصطناعي القائم على القواعد

أركايف للذكاءمنذ 1 شهر

هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟

نماذج لغوية

هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟

أركايف للذكاءمنذ 1 شهر

ثورة ذكاء اصطناعي: تقييم ملخصات الاجتماعات بجودة عالية بخط أنابيب متعدد الاستخدامات!

ثورة ذكاء اصطناعي: تقييم ملخصات الاجتماعات بجودة عالية بخط أنابيب متعدد الاستخدامات!

أركايف للذكاءمنذ 1 شهر

اكتشاف احتيال السفر: معيار جديد لتقييم الشبكات العصبية الرسومية (GNN) في الكشف عن شبكات الاحتيال

اكتشاف احتيال السفر: معيار جديد لتقييم الشبكات العصبية الرسومية (GNN) في الكشف عن شبكات الاحتيال

أركايف للذكاءمنذ 1 شهر

اختبار التحول: طريقة جديدة للكشف عن ذاكرة نماذج اللغات الضخمة في إصلاح البرمجيات

اختبار التحول: طريقة جديدة للكشف عن ذاكرة نماذج اللغات الضخمة في إصلاح البرمجيات

أركايف للذكاءمنذ 1 شهر

مقارنة مثيرة لبروتوكولات التواصل بين الوكلاء في تنسيق المهام: القفزة نحو الأداء المحسن!

مقارنة مثيرة لبروتوكولات التواصل بين الوكلاء في تنسيق المهام: القفزة نحو الأداء المحسن!

أركايف للذكاءمنذ 1 شهر

دربنشر: هل يستطيع وكيلك التعرف على الكيانات واسترجاع خصائصها وإجراء الحسابات؟

دربنشر: هل يستطيع وكيلك التعرف على الكيانات واسترجاع خصائصها وإجراء الحسابات؟

أركايف للذكاءمنذ 1 شهر

انعدام التناسق بين الوسائط: تحديات نماذج اللغة متعددة الأنماط

انعدام التناسق بين الوسائط: تحديات نماذج اللغة متعددة الأنماط

أركايف للذكاءمنذ 1 شهر

ثورة الذكاء الاصطناعي في المنازل الذكية: إطلاق PersonalHomeBench لتقييم الأداء الشخصي

ثورة الذكاء الاصطناعي في المنازل الذكية: إطلاق PersonalHomeBench لتقييم الأداء الشخصي

أركايف للذكاءمنذ 1 شهر

هل تحلم الوكلاء بصدفة الجذور؟ تقييم مبتكر لوكلاء نماذج اللغة الكبيرة في تحديات التقاط العلم

هل تحلم الوكلاء بصدفة الجذور؟ تقييم مبتكر لوكلاء نماذج اللغة الكبيرة في تحديات التقاط العلم

أركايف للذكاءمنذ 1 شهر

MEDLEY-BENCH: ثورة جديدة في تقييم الذكاء الاصطناعي في العمليات المعرفية

MEDLEY-BENCH: ثورة جديدة في تقييم الذكاء الاصطناعي في العمليات المعرفية

أركايف للذكاءمنذ 2 شهر

SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة

SocialGrid: منصة جديدة لتقييم الذكاء الاجتماعي في أنظمة الوكلاء المتعددة

أركايف للذكاءمنذ 2 شهر

هل تستطيع نماذج اللغات الضخمة أن تحل محل البشر في الأبحاث السلوكية؟

هل تستطيع نماذج اللغات الضخمة أن تحل محل البشر في الأبحاث السلوكية؟

أركايف للذكاءمنذ 2 شهر

اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة

اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة

أركايف للذكاءمنذ 2 شهر

ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!

ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!

أركايف للذكاءمنذ 2 شهر

1 / 2التالي →