تقديم الدراسة
تتضمن الدراسة إطار عمل مُنظم يتكون من ثلاثة أجزاء لتوجيه تفكير الموديلات من خلال التفسير، الاستخراج، والتوليف البصري. ولتقييم جودة المخططات، تم تصميم نظام تقييم مكون من عشرة معايير تقيس الدقة الدلالية، والوفاء المكاني، والوضوح البصري.
النماذج المختبرة
تم اختبار ثلاثة نماذج شائعة، بما في ذلك GPT-4o، Gemini-1.5-Flash، وJanus-4o على 79 تقرير حادث. أظهر نموذج GPT-4o أعلى أداء متوسط، حيث حقق 6.29 من 10، يليه Gemini-1.5-Flash بمعدل 5.28، وJanus-4o بمعدل 3.64.
النتائج والتحليلات
أظهرت التحليلات تفوق نموذج GPT-4o في القدرة على التفكير المكاني وتوافق البيانات المستخرجة مع البيانات المرئية. هذه النتائج تبرز الوعود والإمكانات الحالية لموديلات الرؤية واللغة (VLMs) في مهام التصور الهندسي.
خلاصة
تُعتبر هذه الدراسة خطوة تأسيسية نحو دمج الذكاء الاصطناعي التوليدي في workflows تحليل الحوادث، مما يسهم في تحسين الكفاءة والاتساق وقابليـة التفسير. في ظل الحاجة المتزايدة لأدوات تحليل سرعة، تُعد هذه الابتكارات بمثابة بارقة أمل لتطوير وسائل أكثر فعالية لتحليل السلامة المرورية.
ما رأيكم في هذه التطورات المثيرة؟ شاركونا آرائكم في التعليقات أدناه!
