🏷️ #تقييم

40 مقال

ثورة في الرعاية الصحية: نموذج LLM كقاضي والمبادئ التوجيهية لمشروع MedJUDGE

ثورة في الرعاية الصحية: نموذج LLM كقاضي والمبادئ التوجيهية لمشروع MedJUDGE

أركايف للذكاءمنذ 1 شهر

ثورة جديدة في تقييم جودة الأغاني: اكتشفوا SongBench!

ثورة جديدة في تقييم جودة الأغاني: اكتشفوا SongBench!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم نماذج الذكاء الاصطناعي: استراتيجيات مذهلة لمكافحة التحيز

ثورة في تقييم نماذج الذكاء الاصطناعي: استراتيجيات مذهلة لمكافحة التحيز

أركايف للذكاءمنذ 1 شهر

ثورة تقييم رحلات المدن المستدامة: كيف تغير LLM القواعد!

ثورة تقييم رحلات المدن المستدامة: كيف تغير LLM القواعد!

أركايف للذكاءمنذ 1 شهر

قفزة مذهلة: STELLAR-E تُحدث ثورة في تقييم تطبيقات نماذج اللغة الكبيرة

قفزة مذهلة: STELLAR-E تُحدث ثورة في تقييم تطبيقات نماذج اللغة الكبيرة

أركايف للذكاءمنذ 1 شهر

ثورة في فهم تفاعل نماذج الذكاء الاصطناعي: كيف نقيس التباين بين الروبوتات اللغوية؟

ثورة في فهم تفاعل نماذج الذكاء الاصطناعي: كيف نقيس التباين بين الروبوتات اللغوية؟

أركايف للذكاءمنذ 1 شهر

ثورة الذكاء الاصطناعي: كيف يمكن للنماذج اللغوية متعددة الأنماط فهم الأجسام الصغيرة؟

ثورة الذكاء الاصطناعي: كيف يمكن للنماذج اللغوية متعددة الأنماط فهم الأجسام الصغيرة؟

أركايف للذكاءمنذ 1 شهر

ثورة CUDA جديدة: تقييم قفزات هائلة في أداء الذكاء الاصطناعي مع CuTile!

ثورة CUDA جديدة: تقييم قفزات هائلة في أداء الذكاء الاصطناعي مع CuTile!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم الذكاء الاصطناعي: قياس الانحناء والهلوسة في نماذج الرؤية واللغة!

ثورة في تقييم الذكاء الاصطناعي: قياس الانحناء والهلوسة في نماذج الرؤية واللغة!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم نماذج الذكاء الاصطناعي: هل BLAST سيغير قواعد اللعبة؟

ثورة في تقييم نماذج الذكاء الاصطناعي: هل BLAST سيغير قواعد اللعبة؟

أركايف للذكاءمنذ 1 شهر

ثورة التنبؤ: منصة TS-Arena الحية للتسجيل المسبق للطموحات المستقبلية!

ثورة التنبؤ: منصة TS-Arena الحية للتسجيل المسبق للطموحات المستقبلية!

أركايف للذكاءمنذ 1 شهر

دراسة متعمقة: هل تستطيع الذكاء الاصطناعي تقديم أبحاث استثمار مالية احترافية؟

دراسة متعمقة: هل تستطيع الذكاء الاصطناعي تقديم أبحاث استثمار مالية احترافية؟

أركايف للذكاءمنذ 1 شهر

ثورة جديدة في تقدير جودة الترجمة: أدوات FairQE للتخلص من التحيز الجنسي

ثورة جديدة في تقدير جودة الترجمة: أدوات FairQE للتخلص من التحيز الجنسي

أركايف للذكاءمنذ 1 شهر

كيف تؤثر تفاصيل الأفكار على تقييم الأصالة في الذكاء الاصطناعي؟

كيف تؤثر تفاصيل الأفكار على تقييم الأصالة في الذكاء الاصطناعي؟

أركايف للذكاءمنذ 1 شهر

استراتيجية جديدة لتقييم استرجاع المعلومات: الجودة تتخطى المتوسطات!

استراتيجية جديدة لتقييم استرجاع المعلومات: الجودة تتخطى المتوسطات!

أركايف للذكاءمنذ 1 شهر

OMIBench: ثورة جديدة في تقييم استدلال النماذج اللغوية متعددة الصور!

OMIBench: ثورة جديدة في تقييم استدلال النماذج اللغوية متعددة الصور!

أركايف للذكاءمنذ 1 شهر

إطار عمل LLM-as-Judge: تقييم الخيال الناتج عن الضغط اللغوي في نماذج رؤية-لغة

إطار عمل LLM-as-Judge: تقييم الخيال الناتج عن الضغط اللغوي في نماذج رؤية-لغة

أركايف للذكاءمنذ 1 شهر

RoboWM-Bench: معيار مبتكر لتقييم النماذج العالمية في التحكم الروبوتي

RoboWM-Bench: معيار مبتكر لتقييم النماذج العالمية في التحكم الروبوتي

أركايف للذكاءمنذ 1 شهر

CulturALL: التقييم الثوري لكفاءة نماذج اللغات الضخمة في المهام المستندة إلى الثقافة!

CulturALL: التقييم الثوري لكفاءة نماذج اللغات الضخمة في المهام المستندة إلى الثقافة!

أركايف للذكاءمنذ 1 شهر

ابتكار علمي غير مسبوق: كيف تدفع تقييمات الذكاء الاصطناعي حدود الاكتشافات؟

ابتكار علمي غير مسبوق: كيف تدفع تقييمات الذكاء الاصطناعي حدود الاكتشافات؟

أركايف للذكاءمنذ 1 شهر

1 / 2التالي →