في عصر تتزايد فيه الاعتماد على نماذج الذكاء الاصطناعي، تبرز قضية أمان هذه النماذج كموضوع مثير للجدل. في أحدث الدراسات، تم تسليط الضوء على النتائج حول "نماذج اللغة الكبيرة متعددة الوسائط" (Multimodal Large Language Models – MLLMs)، والتي تضم تقنيات جديدة في معالجة المعلومات البصرية إلى جانب النصوص.

وتكشف الأبحاث أن هذه النماذج مع قدرتها على التفكير البصري تحمل ثغرات تجعلها عرضة لهجمات غير متوقعة، خاصة من خلال أسلوب يُعرف باسم "السرد البصري". هذا أسلوب يتضمن استخدام قصص مصورة بسيطة تتكون من ثلاث لوحات، حيث يتم تضمين أهداف ضارة داخل هذه الحكايات. وببساطة، يُحَث النموذج على القيام بدوريات واستكمال القصة بناءً على تلك التعليمات.

تقدم الدراسة مفهوم "ComicJailbreak"، وهو معيار اختبار يعتمد على القصص المصورة، يتضمن 1,167 حالة هجوم تشمل 10 فئات ضرر و5 إعدادات مهام. وقد أظهرت النتائج أن الهجمات القائمة على القصص المصورة تحقق معدلات نجاح مماثلة تمامًا لنماذج الهجمات القوية، فاقمت بشكل ملحوظ أداء النماذج النصية التقليدية.

عند إجراء الاختبارات على 15 نموذجًا من أحدث نماذج MLLMs، تم تحقيق نجاح مدهش في عدة نماذج تجارية، حيث تجاوزت نسبة النجاح 90% في بعض الحالات. وهذا يشير إلى أن طُرق الدفاع الحالية ليست فعالة تمامًا، حيث تؤدي إلى نسب رفض عالية عندما يتعامل النموذج مع تعليمات سليمة.

ومع تقييمات جديدة وتعليقات مستهدفة من البشر، اتضح أن المقيِّمين الأمنيين الحاليين يمكن أن يكونوا غير موثوقين عند التعامل مع محتوى حساس ولكنه غير ضار. وهذا يكشف عن ضرورة وجود استراتيجيات أمان متينة تتماشى مع هذه الأنماط السردية الجديدة.

في النهاية، تدعو هذه النتائج إلى تحسين أساليب الأمن في نماذج الذكاء الاصطناعي، فهل سنشهد تغييرات نوعية في هذا المجال قريبًا؟ ما رأيكم في هذا التطور؟ شاركونا في التعليقات.