هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟

في خطوة جديدة نحو تحسين قدرات الذكاء الاصطناعي، تم الإعلان عن معيار MMTR-Bench، الذي صُمم خصيصًا لتقييم القدرة الأساسية لنماذج اللغات الضخمة متعددة الوسائط (MLLMs) في استعادة النصوص المفقودة بناءً على السياق البصري. يختلف هذا المعيار عمَّا هو معتاد في مهام الإجابة عن الأسئلة، حيث يقوم بتخليص النماذج من توجيهات مباشرة، مما يتطلب منها إعادة بناء النص المفقود من مدخلات تتنوع بين الصفحة الواحدة والصفحات المتعددة في مجالات حقيقية مثل الوثائق وصفحات الإنترنت.

يعمل MMTR-Bench على فصل مهمة الاستعادة عن قدرات اتباع التعليمات، مما يتيح قياسًا مباشرًا لفهم النموذج للتنسيق، وتأصيله البصري، ودمج المعرفة. يتألف هذا المعيار من 2,771 عينة اختبار تغطي لغات متعددة وأطوال مستهدفة متنوعة، مما يضع هذا التحدي على عاتق النماذج لاجتياز اختبار استعادة النصوص على مستوى الجمل والفقرات.

للتأكد من تغطية هذا التنوع بشكل شامل، تم اقتراح بروتوكول تقييم مشابه للدرجات. التجارب التي أُجريت على نماذج MLLMs الممثلة تُظهر أن هذا المعيار يمثل تحديًا كبيرًا وخصوصًا عندما يتعلق الأمر بإعادة بناء النصوص على مستوى الجمل والفقرات. يمكنكم زيارة الصفحة الرئيسية للمشروع للحصول على المزيد من المعلومات ومتابعة التطورات المستقبلية في هذا المجال: [https://mmtr-bench-dataset.github.io/MMTR-Bench/].

هذا التقدم يمثل خطوة مثيرة نحو القدرة على فهم النصوص المفقودة وتحسين فعالية نماذج الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.

هل تستطيع نماذج اللغات الضخمة متعددة الوسائط 'قراءة' ما هو مفقود؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في نمذجة المستخدمين: قفزة مذهلة نحو شخصيات مُبنية على أدلة من سجلات السلوك!

قفزة مذهلة في نمذجة العالم: ثورة جديدة في التخطيط والتحكم للوكالات الم embodiment

ثورة في نماذج اللغة: كيف تم بناء Granite 4.1!