🏷️ #تقييم
13 مقال
🤖
أبحاث
InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود
أركايف للذكاءمنذ 2 يوم
🤖
أبحاث
ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية
أركايف للذكاءمنذ 2 يوم
🤖
أبحاث
تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة
أركايف للذكاءمنذ 2 يوم
🤖
أبحاث
LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق
أركايف للذكاءمنذ 2 يوم
🤖
أدوات
ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!
أركايف للذكاءمنذ 2 يوم
🤖
نماذج لغوية
استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي
أركايف للذكاءمنذ 2 يوم
🤖
أبحاث
قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!
أركايف للذكاءمنذ 4 يوم
🤖
نماذج لغوية
ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية
أركايف للذكاءمنذ 4 يوم
🤖
أبحاث
قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!
أركايف للذكاءمنذ 4 يوم
🤖
نماذج لغوية
ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز
أركايف للذكاءمنذ 4 يوم
🤖
أبحاث
قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة
أركايف للذكاءمنذ 4 يوم
🤖
أبحاث
ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL
أركايف للذكاءمنذ 4 يوم
🤖
نماذج لغوية
ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!
أركايف للذكاءمنذ 4 يوم