🏷️ #تقييم

13 مقال

🤖
أبحاث

InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود

أركايف للذكاءمنذ 2 يوم
🤖
أبحاث

ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية

أركايف للذكاءمنذ 2 يوم
🤖
أبحاث

تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة

أركايف للذكاءمنذ 2 يوم
🤖
أبحاث

LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق

أركايف للذكاءمنذ 2 يوم
🤖
أدوات

ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!

أركايف للذكاءمنذ 2 يوم
🤖
نماذج لغوية

استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي

أركايف للذكاءمنذ 2 يوم
🤖
أبحاث

قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!

أركايف للذكاءمنذ 4 يوم
🤖
نماذج لغوية

ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية

أركايف للذكاءمنذ 4 يوم
🤖
أبحاث

قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!

أركايف للذكاءمنذ 4 يوم
🤖
نماذج لغوية

ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز

أركايف للذكاءمنذ 4 يوم
🤖
أبحاث

قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة

أركايف للذكاءمنذ 4 يوم
🤖
أبحاث

ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL

أركايف للذكاءمنذ 4 يوم
🤖
نماذج لغوية

ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!

أركايف للذكاءمنذ 4 يوم