ثورة جديدة في الهجمات على النماذج اللغوية البصرية: "MemJack" يفضح نقاط الضعف الخفية!

يمثل التطور السريع في النماذج اللغوية البصرية (Vision-Language Models) قفزة نوعية في قدرات الذكاء الاصطناعي، لكنه في الوقت نفسه فتح أبوابًا جديدة للهجمات المعقدة. تقنيات الهجمات التقليدية تركز عادةً على تشويهات بصرية سطحية أو صور ضارة، لكن هذا الاتجاه يتجاهل الهياكل الدلالية العميقة التي تحملها البيانات البصرية، مما يترك ثغرات ضخمة غير مكتشفة.

ولمعالجة هذه المسألة، قدم الباحثون إطار عمل جديد يحمل اسم "MemJack"، وهو اختصار لـ "MEMory-augmented multi-agent JAilbreak attacK". يهدف هذا الإطار إلى استغلال المعاني البصرية لتنظيم هجمات الهروب الآلي. يعمل MemJack من خلال تنسيق تعاون متعدد الوكلاء، حيث يقوم بربط الكيانات البصرية بالنوايا الضارة، وتوليد دعوات غير محسوسة عبر تمويه بصري-دلالي متعدد الزوايا. يستخدم MemJack أيضًا مصفاة هندسية تُعرف باسم (Iterative Nullspace Projection INLP) لتجاوز الرفض المبكر للمساحات الكامنة.

من خلال التجميع ونقل الاستراتيجيات الناجحة، يحتفظ MemJack بتفاعلات هجمات متسلسلة مطولة عبر صور مختلفة، مما يحسن من معدل نجاح الهجمات (Attack Success Rate ASR) على الصور الجديدة. أظهرت التقييمات التجريبية الواسعة على صور COCO val2017 أن MemJack حقق معدل نجاح 71.48% ضد نموذج Qwen3-VL-Plus، مع إمكانية الوصول إلى 90% تحت ميزانيات موسعة.

كما يساهم الباحثون في دعم الأبحاث الدفاعية في المستقبل من خلال إصدار مجموعة بيانات شاملة تُعرف بـ "MemJack-Bench"، والتي تحتوي على أكثر من 113,000 مسار هجوم تفاعلي متعدد النمط، مما يشكل أساسًا حيويًا لتطوير نماذج VLMs قوية وفطرية.

ما رأيكم في هذه التطورات الجديدة؟ هل ترون أن هذه التقنيات ستؤثر على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.

ثورة جديدة في الهجمات على النماذج اللغوية البصرية: "MemJack" يفضح نقاط الضعف الخفية!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!