في عالم القيادة الذاتية المتطورة، يعتبر فهم انتباه السائقين أمرًا حيويًا لتحقيق تجربة قيادة مشابهة للبشر. ومع ذلك، فإن البيانات الحالية المتوفرة تقتصر على مستوى المشهد العام، مما يعيق قدرة النماذج على دعم النمذجة المعرفية المتأصلة في النصوص. وفي خطوة جريئة نحو حل هذه المعضلة، نُشرت ورقة بحثية جديدة تتناول إطارًا جديدًا للتنبؤ بالاهتمام يُعرف باسم "التنبؤ بالاهتمام الثنائي".

تعتبر المشكلة الرئيسية أن النماذج المتاحة حاليًا توفر فقط تقييمات عامة لمستوى المشهد، مما يؤدي إلى معوقات في معالجة البيانات التراكمية. ومع ذلك، مع ظهور أنماط جديدة مثل نماذج اللغة الكبيرة (Large Language Models) ونموذج "Segment Anything Model 3"، تُفتح آفاق جديدة لتعديل البيانات لتناسب الحاجة الملحة لتنبؤ دقيق على مستوى كائنات القيادة.

يُعتمد في هذا الإطار الجديد نموذج "DualGaze-VLM" الذي يستند إلى دمج نموذج لغوي متعدد الوسائط لبناء مجموعة بيانات جديدة تُعرف باسم G-W3DA. ومن خلال تحليل تضاريس الصورة بشكل أدق، يُمكن للأنظمة القائمة على الذكاء الاصطناعي التنبؤ بمناطق الانتباه بدقة أعلى، مما يسهم في إنشاء نماذج أكثر كفاءة.

أظهرت التجارب على مجموعة بيانات W3DA أن نموذج "DualGaze-VLM" يتفوق في دقة النتائج مقارنة بالنماذج الحالية، حيث حقق تحسينًا يصل إلى 17.8% في معايير المحاذاة المكاني، مما يعكس التحسينات الملحوظة في السياقات السلامة. بالإضافة إلى ذلك، أظهر اختبار Turing المرئي أن 88.22% من المحكمين البشريين اعتقدوا أن خرائط الاهتمام الناتجة كانت واقعية، مما يدل على قدرة هذا النموذج على إنتاج أنماط معرفية ذات مغزى.

بهذه النقاط، يعكس هذا البحث تحسنًا كبيرًا في فهم سلوك السائقين واهتماماتهم، مما يضع الأساس لمستقبل آمن وأكثر دقة في القيادة الذاتية.