🏷️ #تقييم

40 مقال

GeoLaux: الثورة الجديدة في تقييم أداء نماذج الذكاء الاصطناعي في حل مشكلات الهندسة المعقدة!

GeoLaux: الثورة الجديدة في تقييم أداء نماذج الذكاء الاصطناعي في حل مشكلات الهندسة المعقدة!

أركايف للذكاءمنذ 1 شهر

XpertBench: تقييم المهام المتقدمة لنماذج الذكاء الاصطناعي بطرق مبتكرة

XpertBench: تقييم المهام المتقدمة لنماذج الذكاء الاصطناعي بطرق مبتكرة

أركايف للذكاءمنذ 1 شهر

AlphaContext: ثورة جديدة في تقييم الإبداع بدعم الذكاء الاصطناعي!

AlphaContext: ثورة جديدة في تقييم الإبداع بدعم الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر

اكتشف قمة QIMMA: الجدول الرائد لنماذج اللغة العربية ذات الجودة العالية!

نماذج لغوية

اكتشف قمة QIMMA: الجدول الرائد لنماذج اللغة العربية ذات الجودة العالية!

هاجينج فيسمنذ 1 شهر

ثورة الذكاء الاصطناعي في المجال القانوني: تقييم شامل لنماذج اللغة الكبيرة في النصوص الفيتنامية

ثورة الذكاء الاصطناعي في المجال القانوني: تقييم شامل لنماذج اللغة الكبيرة في النصوص الفيتنامية

أركايف للذكاءمنذ 2 شهر

اكتشاف vla-eval: الأداة الثورية لتقييم نماذج الرؤية واللغة والعمل

اكتشاف vla-eval: الأداة الثورية لتقييم نماذج الرؤية واللغة والعمل

أركايف للذكاءمنذ 2 شهر

InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود

InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود

أركايف للذكاءمنذ 2 شهر

ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية

ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية

أركايف للذكاءمنذ 2 شهر

تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة

تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة

أركايف للذكاءمنذ 2 شهر

LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق

LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق

أركايف للذكاءمنذ 2 شهر

ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!

ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!

أركايف للذكاءمنذ 2 شهر

استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي

نماذج لغوية

استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي

أركايف للذكاءمنذ 2 شهر

قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!

قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!

أركايف للذكاءمنذ 2 شهر

ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية

نماذج لغوية

ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية

أركايف للذكاءمنذ 2 شهر

قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!

قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!

أركايف للذكاءمنذ 2 شهر

ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز

نماذج لغوية

ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز

أركايف للذكاءمنذ 2 شهر

قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة

قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة

أركايف للذكاءمنذ 2 شهر

ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL

ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL

أركايف للذكاءمنذ 2 شهر

ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!

نماذج لغوية

ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!

أركايف للذكاءمنذ 2 شهر

لماذا لم نعد نقيم SWE-bench Verified؟ اكتشف الفوضى في اختبارات برمجة الحدود!

لماذا لم نعد نقيم SWE-bench Verified؟ اكتشف الفوضى في اختبارات برمجة الحدود!

مدونة أوبن إيه آيمنذ 3 شهر

← السابق2 / 2