في خطوة جديدة نحو تحسين قدرات الذكاء الاصطناعي، تم الإعلان عن معيار MMTR-Bench، الذي صُمم خصيصًا لتقييم القدرة الأساسية لنماذج اللغات الضخمة متعددة الوسائط (MLLMs) في استعادة النصوص المفقودة بناءً على السياق البصري. يختلف هذا المعيار عمَّا هو معتاد في مهام الإجابة عن الأسئلة، حيث يقوم بتخليص النماذج من توجيهات مباشرة، مما يتطلب منها إعادة بناء النص المفقود من مدخلات تتنوع بين الصفحة الواحدة والصفحات المتعددة في مجالات حقيقية مثل الوثائق وصفحات الإنترنت.
يعمل MMTR-Bench على فصل مهمة الاستعادة عن قدرات اتباع التعليمات، مما يتيح قياسًا مباشرًا لفهم النموذج للتنسيق، وتأصيله البصري، ودمج المعرفة. يتألف هذا المعيار من 2,771 عينة اختبار تغطي لغات متعددة وأطوال مستهدفة متنوعة، مما يضع هذا التحدي على عاتق النماذج لاجتياز اختبار استعادة النصوص على مستوى الجمل والفقرات.
للتأكد من تغطية هذا التنوع بشكل شامل، تم اقتراح بروتوكول تقييم مشابه للدرجات. التجارب التي أُجريت على نماذج MLLMs الممثلة تُظهر أن هذا المعيار يمثل تحديًا كبيرًا وخصوصًا عندما يتعلق الأمر بإعادة بناء النصوص على مستوى الجمل والفقرات. يمكنكم زيارة الصفحة الرئيسية للمشروع للحصول على المزيد من المعلومات ومتابعة التطورات المستقبلية في هذا المجال: [https://mmtr-bench-dataset.github.io/MMTR-Bench/].
هذا التقدم يمثل خطوة مثيرة نحو القدرة على فهم النصوص المفقودة وتحسين فعالية نماذج الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟
تم تقديم معيار جديد يُعرف باسم MMTR-Bench لتقييم قدرات نماذج اللغات الضخمة متعددة الوسائط (MLLMs) في استعادة النصوص المفقودة من السياق البصري. هذا المعيار يعد تجريداً فريداً يقلل من الاعتماد على التوجيهات المباشرة، مما يسمح بتقييم شامل لقدرات الفهم البصري والتكامل المعرفي للنماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
