في عصر تتزايد فيه الدقة والجودة في إنتاج الصور بواسطة الذكاء الاصطناعي، أصبحت الفجوة بين الواقع والمحتوى الصناعي ضبابية بشكل متزايد. ومع تزايد استخدام النماذج اللغوية البصرية (Vision-Language Models - VLMs) لتحليل الصور وتقديم تفسيرات لغوية طبيعية، تبقى تحديات كبيرة قائمة أمام الحلول التقليدية، التي غالبًا ما تفقد التفاصيل الدقيقة في الصور الاصطناعية عالية الجودة.

لذا، ظهرت تقنية جديدة تُدعى Locate-Then-Examine (LTE)، والتي تمثل إطارًا تقنيًا متقدمًا للكشف عن المحتوى الاصطناعي. تعتمد هذه التقنية على نهج ذو مرحلتين، حيث تقوم أولاً بتحديد المناطق المشتبه بها في الصورة، ثم تعيد فحص هذه المناطق مع الصورة بأكملها لتحسين دقة الحكم على ما إذا كانت الصورة حقيقية أم مولّدة بواسطة الذكاء الاصطناعي.

واحدة من الميزات الفريدة لتقنية LTE هي أنها تربط كل قرار بالأدلة البصرية المحددة، مما يقدم تفسيرات واضحة ومفيدة للتحقيقات الجنائية. لدعم تطوير وتقييم هذه التقنية، تم تقديم مجموعة بيانات TRACE، التي تحتوي على 20,000 صورة حقيقية وصور صناعية عالية الجودة، مع تعليقات توضيحية على مستوى المناطق وأدلة جنائية مولدة تلقائيًا من خلال أنبوب معالجة مدعوم بنموذج VLM مع فحوصات إضافية لضمان الجودة.

عبر استخدام مجموعة بيانات TRACE ومعايير خارجية متعددة، أثبتت تقنية LTE دقتها ومرونتها في الأداء، مقدمة تفسيرات واضحة وقابلة للفهم من قبل البشر، مما يجعلها مناسبة للأغراض الجنائية.

ما رأيكم في هذه التقنية الجديدة؟ هل تعتقدون أنها ستحدث ثورة في مجال الكشف عن الصور الاصطناعية؟ شاركونا آرائكم في التعليقات.