في عالم الذكاء الاصطناعي، تعتبر نماذج رؤية اللغة (Vision-Language Models) أدوات قوية، لكنها تواجه تحديات تتمثل في ظاهرة تثير القلق تُعرف بالهلوسة البصرية (object hallucination). هذه الظاهرة تحدث عندما تُنتج النماذج محتوى يتناقض مع الواقع المرئي بسبب الاعتماد المفرط على معرفتها اللغوية.
إطار عمل مبتكر: Positive-and-Negative Decoding (PND)
**Positive-and-Negative Decoding (PND)** هو إطار يستند إلى فكرة جديدة تهدف إلى تحسين دقة النماذج دون الحاجة إلى إعادة تدريبها. يتمتع هذا الإطار بدقة ملحوظة في تعزيز الوصف المرئي وتقليل الهلوسة. يعتمد PND على مفهوم مهم، وهو وجود نقص حاد في الانتباه في نماذج رؤية اللغة، حيث يتم التعامل مع الميزات البصرية بشكل ضعيف.
كيف يعمل PND؟
يتكون PND من مسارين متعاكسين:
- **المسار الإيجابي**: يعزز الدلائل البصرية البارزة باستخدام الانتباه متعدد الطبقات لتشجيع الوصف الدقيق.
- **المسار السلبي**: يكشف ويقلل من ميزات الكائن الأساسي، مما يخلق فرضية مضادة قوية تعاقب التوليد غير المتوازن.
هذا التوازن الذكي بين المسارين يساعد PND في توجيه النموذج نحو إنتاج نصوص ليست فقط محتملة لغويًا، بل واقعية بصريًا.
نتائج ملهمة
أظهرت التجارب الواسعة التي أجريت على مجموعات الاختبار مثل POPE وMME وCHAIR أن PND يحقق أداءً رائدًا في هذا المجال، مع تحسين دقة تصل إلى 6.5%، مما يؤدي بشكل كبير إلى تقليل الهلوسة البصرية وتعزيز التفاصيل الوصفية.
التعميم عبر النماذج المختلفة
تتمتع هذه الطريقة بالقدرة على التكيّف بشكل فعال مع نماذج متعددة من نماذج رؤية اللغة مثل LLaVA وInstructBLIP وInternVL وQwen-VL، مما يفتح آفاقًا جديدة في مجال الذكاء الاصطناعي.
في الختام، يبدو أن PND يعد بتغيير كبير في كيفية عمل نماذج رؤية اللغة، ويعيد تعريف ما يمكن أن تقدمه هذه النماذج في المستقبل.
