Ailoxa Logo

🏷️ #تقييم

40 مقال

GeoLaux: الثورة الجديدة في تقييم أداء نماذج الذكاء الاصطناعي في حل مشكلات الهندسة المعقدة!
أبحاث

GeoLaux: الثورة الجديدة في تقييم أداء نماذج الذكاء الاصطناعي في حل مشكلات الهندسة المعقدة!

أركايف للذكاءمنذ 1 شهر
XpertBench: تقييم المهام المتقدمة لنماذج الذكاء الاصطناعي بطرق مبتكرة
أبحاث

XpertBench: تقييم المهام المتقدمة لنماذج الذكاء الاصطناعي بطرق مبتكرة

أركايف للذكاءمنذ 1 شهر
AlphaContext: ثورة جديدة في تقييم الإبداع بدعم الذكاء الاصطناعي!
أبحاث

AlphaContext: ثورة جديدة في تقييم الإبداع بدعم الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر
اكتشف قمة QIMMA: الجدول الرائد لنماذج اللغة العربية ذات الجودة العالية!
نماذج لغوية

اكتشف قمة QIMMA: الجدول الرائد لنماذج اللغة العربية ذات الجودة العالية!

هاجينج فيسمنذ 1 شهر
ثورة الذكاء الاصطناعي في المجال القانوني: تقييم شامل لنماذج اللغة الكبيرة في النصوص الفيتنامية
أبحاث

ثورة الذكاء الاصطناعي في المجال القانوني: تقييم شامل لنماذج اللغة الكبيرة في النصوص الفيتنامية

أركايف للذكاءمنذ 2 شهر
اكتشاف vla-eval: الأداة الثورية لتقييم نماذج الرؤية واللغة والعمل
أدوات

اكتشاف vla-eval: الأداة الثورية لتقييم نماذج الرؤية واللغة والعمل

أركايف للذكاءمنذ 2 شهر
InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود
أبحاث

InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود

أركايف للذكاءمنذ 2 شهر
ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية
أبحاث

ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية

أركايف للذكاءمنذ 2 شهر
تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة
أبحاث

تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة

أركايف للذكاءمنذ 2 شهر
LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق
أبحاث

LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق

أركايف للذكاءمنذ 2 شهر
ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!
أدوات

ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!

أركايف للذكاءمنذ 2 شهر
استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي
نماذج لغوية

استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي

أركايف للذكاءمنذ 2 شهر
قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!
أبحاث

قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!

أركايف للذكاءمنذ 2 شهر
ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية
نماذج لغوية

ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية

أركايف للذكاءمنذ 2 شهر
قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!
أبحاث

قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!

أركايف للذكاءمنذ 2 شهر
ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز
نماذج لغوية

ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز

أركايف للذكاءمنذ 2 شهر
قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة
أبحاث

قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة

أركايف للذكاءمنذ 2 شهر
ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL
أبحاث

ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL

أركايف للذكاءمنذ 2 شهر
ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!
نماذج لغوية

ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!

أركايف للذكاءمنذ 2 شهر
لماذا لم نعد نقيم SWE-bench Verified؟ اكتشف الفوضى في اختبارات برمجة الحدود!
أدوات

لماذا لم نعد نقيم SWE-bench Verified؟ اكتشف الفوضى في اختبارات برمجة الحدود!

مدونة أوبن إيه آيمنذ 3 شهر