في عالم يتطور سريعاً نحو الذكاء الاصطناعي، تُعد نماذج رؤية-لغة (Vision-Language Models) بمثابة علامة بارزة في مجال التعلم الآلي. هذه النماذج قادرة على القيام بتصنيف بدون أمثلة (Zero-shot classification)، لكنها تبقى عرضة للهجمات المعادية التي تستهدف نقاط ضعفها.

تعمل التطبيقات الحالية على تحسين قوة هذه النماذج من خلال ما يُعرف بالتدريب الدقيق المتين (Robust Fine-Tuning)، ولكنها غالباً ما تفقد أدائها الطبيعي نتيجة لتوافق التضمينات النصية الثابتة مع تضمين الصورة، مما ينعكس سلباً على متانتها.

وتسهم الهجمات المعادية في تدهور هذه المتانة، خصوصاً عندما يستهدف المهاجمون الفئات العليا (superclasses) مثل الثدييات، إلى جانب الفئات الأساسية التي تعتبر أكثر تحديداً، مثل القطط.

لذلك، نقدم إطار عمل مبتكر للتدريب الدقيق المعادي، يعتمد على تحسينات هيكلية من خلال تضمينات هرمية (Hierarchical Embeddings) وأنظمة متعددة من التوافق المتين بين صيغتي الصورة والنص. يضمن هذا الإطار وضع تضمينات الصور في العمق المطلوب من الهيكل، ويقدم ارتباطاً نظرياً بين عمق التضمين في الهيكل وحجم الهامش الأقصى القابل للتطبيق.

بفضل هذا النموذج، يمكننا تحقيق أحجام هامش مختلفة، مما يعزز قدرة النموذج على التعميم وتعزيز قوته ضد المهاجمين. كما نأخذ في الاعتبار توفيق التضمينات عبر أشجار متعددة لتعزيز التنوع الدلالي، مع إمكانية الأداء عبر مجموعة متنوعة من مجموعات البيانات.

إن هذا التصور الجديد لكيفية تحسين نماذج الذكاء الاصطناعي في مواجهة التحديات يعد خطوة مهمة نحو زيادة موثوقيتها، مما يمهد الطريق لمزيد من الاستخدامات الآمنة والفعالة في المستقبل.