VIB-Probe: ثورة جديدة في كشف وتقليل الهلاوس في نماذج الرؤية واللغة

في عالم الذكاء الاصطناعي، شهدت نماذج الرؤية واللغة (Vision-Language Models) تطورات مذهلة في مهام متعددة الوسائط، لكنها تواجه تحديات جمة بسبب الهلاوس، حيث ينحرف النص المولد عن المحتوى البصري الأساسي. تعتمد الطرق المتاحة حالياً لكشف الهلاوس بشكل رئيسي على قيم الخرج أو أدوات التحقق الخارجية، مما يترك الفراغات في فهم الآليات الداخلية لهذه النماذج.

في هذا السياق، يأتي مشروع VIB-Probe كحل مبتكر، حيث يستند إلى نظرية معلومات فطرية (Variational Information Bottleneck) لكشف وتقليل الهلاوس. يقوم هذا الإطار الجديد باستخراج أنماط تمييزية عبر الطبقات والرؤوس العقلية، مع تصفية الشوائب الدلالية من خلال مبدأ كسب المعلومات.

تمثل الرؤوس العقلية المحددة في هذه النماذج موصلات قوية للإشارات الحقيقية. لكن، لفهم العلاقات الداخلية لهذه الرؤوس، كان التحدي يكمن في تحليل هذه الحالات عالية الأبعاد بسبب تداخل التركيبات اللغوية البصرية والضجيج.

عبر استخدام تدرجات VIB-Probe، تمكنا من تحديد الرؤوس العقلية التي تؤثر بشكل قوي على الهلاوس، وأدخلنا استراتيجية تدخل أثناء عملية الاستدلال لتخفيفها. أظهرت التجارب الواسعة عبر معايير متنوعة أن VIB-Probe يتفوق بشكل ملحوظ على المعايير الحالية في كل من الإعدادات.

هذه الأداة تمثل ثورة في كيفية تعاملنا مع الهلاوس في نماذج الذكاء الاصطناعي، حيث أننا سنجعل الشيفرة المصدرية متاحة للجمهور، مما يسهم في تعزيز الابتكار والتطوير في هذا المجال الحيوي.

VIB-Probe: ثورة جديدة في كشف وتقليل الهلاوس في نماذج الرؤية واللغة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في نمذجة المستخدمين: قفزة مذهلة نحو شخصيات مُبنية على أدلة من سجلات السلوك!

قفزة مذهلة في نمذجة العالم: ثورة جديدة في التخطيط والتحكم للوكالات الم embodiment

ثورة في نماذج اللغة: كيف تم بناء Granite 4.1!