# ثورة في الذكاء الاصطناعي: CGC يُحدث قفزة في فهم الصور المتعددة!

في عالم الذكاء الاصطناعي، تسجل نماذج اللغة متعددة الوسائط (MLLMs) تقدمًا ملحوظًا، ولكنها لا تزال تواجه تحديات بارزة في فهم الصور المتعددة بدقة. تُظهر الدراسات أن هذه النماذج غالبًا ما تعاني من **هلوسة مكانية** (spatial hallucination) و **تسرب الانتباه** (attention leakage)، بالإضافة إلى إخفاقاتها في ثبات الكائنات (object constancy).

في هذا السياق، تم تقديم **CGC** أو **Compositional Grounded Contrast**، كإطار عمل مبتكر منخفض التكلفة لتعزيز الفهم الدقيق للصور المتعددة.

كيف يعمل CGC؟


يستند هذا النظام إلى تسميات التثبيت الخاصة بالصور المفردة، حيث يقوم CGC بإنشاء تجارب تدريب صور متعددة من خلال **التباين بين الصور** (Inter-Image Contrast) و**التباين داخل الصورة** (Intra-Image Contrast).

يعمل **CGC** على إضافة سياقات معيقة مفصولة دلاليًا لتحسين التمييز بين الصور وتثبيت الكائنات.

وعلاوة على ذلك، تم إدخال **مكافأة مكانية قائمة على القواعد** (Rule-Based Spatial Reward) ضمن إطار عمل **GRPO**، مما يُعزز نسبة الإسناد للصورة المصدر، والمحاذاة المكانية، وصحة المخرجات المنظمة تحت مفهوم **التفكير قبل التثبيت** (Think-before-Grounding).

نتائج مذهلة!


أظهرت التجارب أن CGC حققت نتائج رائدة في معايير الصور المتعددة الدقيقة، بما في ذلك **MIG-Bench** و **VLM2-Bench**. كما أن قدرة فهم الصور المتعددة المكتسبة انتقلت إلى مهام الفهم المتعدد الوسائط والتفكير الأخرى، مع تحقيق مكاسب متسقة على نموذج **Qwen3-VL-8B** في عدة اختبارات مثل MathVista و MuirBench.

هذه الابتكارات تُشير إلى أن CGC ليس فقط أداة لتحسين الفهم في مجال معين، بل تمثل نقلًا حقيقيًا نحو تطوير نماذج ذكاء اصطناعي أكثر ذكاءً وفهمًا!

في الختام


هل أنت متحمّس لسماع المزيد عن كيفية تأثير هذه التقنية في عالم الذكاء الاصطناعي؟