أظهرت النماذج اللغوية متعددة الأنماط (Multimodal Large Language Models - MLLMs) قدرة واعدة في مجالات متنوعة مثل تحليل الصور والفيديو، بالإضافة إلى الأولمبياد في الرياضيات والفيزياء. ومع ذلك، فإنه لا يزال هناك فجوة كبيرة في فهم الأجسام الصغيرة (Small Object Understanding - SOU)، مما يستدعي البحث والاستكشاف.
تقديم SOUBench
لتجسيد هذه الرؤية، تم تقديم SOUBench كأول معيار شامل لفهم قدرة النماذج اللغوية متعددة الأنماط على معالجة الأجسام الصغيرة. إذ تم تصميم استراتيجية فعالة وآلية لتوليد الأسئلة والأجوبة البصرية، مما أدى إلى إنشاء مجموعة بيانات جديدة تسمى SOU-VQA، والتي تحتوي على **18,204 زوج من الأسئلة والأجوبة**، مع ستة مهام فرعية ذات صلة وثلاثة سيناريوهات أساسية (القيادة، الطيران، تحت الماء).
تقييم شامل
تم إجراء تقييم شامل على 15 من أحدث النماذج اللغوية متعددة الأنماط، وكشف عن قدراتها الضعيفة في فهم الأجسام الصغيرة. لكن الأمر لم يتوقف عند هذا الحد! تم تطوير مجموعة بيانات SOU-Train، التي تحتوي على **11,226 زوج من الأسئلة والأجوبة**، لتحسين قدرات SOU للنماذج. مما يُظهر أن عملية التهيئة الخاضعة للإشراف للنموذج الأخير يمكن أن تعزز بشكل فعّال من قدرته على فهم الأجسام الصغيرة.
نتائج واعدة
تظهر النتائج التجريبية الشاملة أن SOUBench، جنبًا إلى جنب مع مجموعات البيانات SOU-VQA وSOU-Train، يوفر أساسًا تجريبيًا حيويًا للمجتمع لتعزيز تطوير النماذج التي تتمتع بقدرات محسّنة في فهم الأجسام الصغيرة.
هل تعتقد أن المستقبل يحمل لنا مفاجآت جديدة في مجال فهم الأجسام الصغيرة باستخدام الذكاء الاصطناعي؟ شاركنا برأيك في التعليقات!
