تجاوز الحد الأدنى: تعزيز التفكير المكاني عبر التصوير بالرنين المغناطيسي ثلاثي الأبعاد

أصبح التفكير المكاني (Spatial Reasoning) وتجهيز البيانات البصرية (Visual Grounding) جزءًا أساسيًا من نماذج الرؤية واللغة (Vision-Language Models - VLMs) في مجال الذكاء الاصطناعي، إلا أن معظم هذه النماذج في القطاع الطبي لا تقدم تفسيرات واضحة أو أدلة مكانية في توقعاتها. علاوة على ذلك، تفتقر المراجعات الحالية إلى تقييم النماذج استنادًا فقط إلى الصور ثنائية الأبعاد، مما يهمل الطبيعة الثلاثية الأبعاد للصور السريرية، حيث يمكن أن تمتد النتائج عبر عدة إطارات أو تظهر فقط على عدد قليل من الشرائح.

لتعزيز هذا المجال، قمنا بتقديم معيار جديد يُعرف باسم **إجابة الأسئلة المرئية المستندة إلى الرنين المغناطيسي المكاني (Spatially Grounded MRI Visual Question Answering - SGMRI-VQA)**، وهو معيار مبتكر يتضمن 41,307 زوجًا من الأسئلة والأجوبة يركز على التفكير المكاني عبر بيانات الرنين المغناطيسي ثلاثي الأبعاد. تم بناء هذا المعيار من تعليقات خبراء الأشعة في مجموعة بيانات fastMRI+، والتي تغطي دراسات الدماغ والركبة، حيث يتضمن كل زوج من الأسئلة والأجوبة مسار تفكير يتماشى مع طبيب على الشكل الصحيح بالتوازي مع إحداثيات الإطارات.

تنظم المهام في هذا المعيار بشكل هرمي بين الاكتشاف (Detection)، والتحديد (Localization)، والعد/التصنيف (Counting/Classification)، والتعليق (Captioning). يتطلب الأمر من النماذج التفكير المشترك حول ما هو موجود، وأين يقع، وعلى أي إطارات يمتد. تم إجراء اختبارات على 10 نماذج من VLMs واكتشفنا أن تحسين **Qwen3-VL-8B** بإشراف دقيق باستخدام إرشادات الإطار يعزز أداء grounding بشكل مستمر مقارنة بالأساسيات الصعبة دون إشراف، مما يشير إلى أن التوجيه المكاني المستهدف هو طريق فعّالة نحو تعزيز التفكير السريري.

إن هذا الابتكار could يغير مشهد استخدام الذكاء الاصطناعي في الطب، ويدعم الأطباء بتقديم توقعات أكثر دقة.

تجاوز الحد الأدنى: تعزيز التفكير المكاني عبر التصوير بالرنين المغناطيسي ثلاثي الأبعاد

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!