اكتشاف الانحرافات البصرية: منصة DistortBench لتقييم نماذج اللغة والرؤية!

في عالم الذكاء الاصطناعي المتطور، تلعب نماذج اللغة والرؤية (Vision-Language Models) دورًا متزايد الأهمية في الكثير من التطبيقات، من مراقبة المحتوى إلى استعادة الصور وتحسين جودتها. لكن هل تدرك حقًا مدى قدرتها على التعرف على أنواع الانحرافات البصرية ودرجاتها المختلفة؟

تقديم منصة DistortBench كان بمثابة الضوء الكاشف في هذا المجال، حيث تعتبر هذه المنصة معيارًا تشخيصيًا جديدًا يقيس إدراك الانحرافات دون اعتماد على مرجع. يتضمن DistortBench حوالي 13,500 سؤال من نوع الاختيار من أربعة، تغطي 27 نوعًا من الانحرافات و6 فئات إدراكية و5 مستويات من الخطورة.

تم تقييم 18 نموذجًا من نماذج اللغة والرؤية، من ضمنها 17 نموذجًا مفتوح الوزن من خمس عائلات ونموذج واحد خاص. ورغم الأداء القوي في المهام المتعلقة بالرؤية واللغة، لم يتجاوز أفضل نموذج نسبة الدقة 61.9%، مما يعني أنه لا يزال دون المستوى المطلوب بالمقارنة مع متوسط الأصوات البشرية الذي بلغ 65.7%.

ما يثير القلق بشكل خاص هو أن هذه النماذج تُظهر ضعفًا ملحوظًا في الفهم الإدراكي للمستويات المنخفضة، ويعتبر هذا مؤشراً واضحًا على التحديات التي تواجه تطوير هذه النماذج مستقبلاً. كما كشفت التحليلات الإضافية عن مسائل في التوسع إلى أحجام النماذج المختلفة وتباين الأداء عبر عائلات النماذج.

نأمل أن تُعزّز DistortBench الجهود الرامية إلى تطوير وتقييم القدرات البصرية للنماذج في البيئات الواقعية وتحسين فهم هذه الأنظمة للانحرافات البصرية.

اكتشاف الانحرافات البصرية: منصة DistortBench لتقييم نماذج اللغة والرؤية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!