مع تزايد اعتماد أنظمة الذكاء الاصطناعي (AI) في مجالات حيوية، تظهر التحديات المتعلقة بأمان هذه الأنظمة بشكل متزايد. مما لا شك فيه أن نقاط الضعف الأمنية تمثل مخاطر كبيرة، خاصة بعد وقوع العديد من الحوادث الشهيرة التي ساهمت في إخفاقات نظامية خطيرة. لذا تبرز الحاجة إلى تطوير أساليب منهجية لتقييم أمان الذكاء الاصطناعي.

في هذا السياق، تم تقديم AVISE (تحديد نقاط ضعف الذكاء الاصطناعي وتقييم الأمان) كإطار عمل مفتوح المصدر يمكن الباحثين والممارسين في الصناعة من تحديد نقاط الضعف وتقييم أمن أنظمة الذكاء الاصطناعي والنماذج.

كجزء من ذلك، تم توسيع مفهوم الهجوم القائم على نظرية العقل (theory-of-mind) في الهجمات متعددة الجولات إلى هجوم معزز باستخدام نموذج لغة عدائي (Adversarial Language Model). بالإضافة إلى ذلك، تم تطوير اختبار تقييم الأمان الآلي (Security Evaluation Test - SET) للكشف عن نقاط ضعف jailbreak في نماذج اللغة. يتكون هذا الاختبار من 25 حالة اختبار ونموذج لغة تقييم (Evaluation Language Model - ELM) يقوم بتحديد ما إذا كانت كل حالة من حالات الاختبار قد تمكنت من اعتقال النموذج المستهدف.

تشير النتائج إلى أن AVISE حققت دقة تصل إلى 92%، ومعدل F1 يبلغ 0.91، ومعامل ارتباط ماثيوز (Matthews correlation coefficient) يبلغ 0.83.

عند تقييم تسعة نماذج لغة حديثة بأحجام متنوعة باستخدام SET، وجد الباحثون أن جميع هذه النماذج عرضة للهجوم المعزز من نوع Red Queen بدرجات متفاوتة. يعد AVISE بديلاً متينًا للباحثين وممارسي الصناعة، ويقدم أساسًا قابلاً للتطوير لتطوير وتنفيذ اختبارات تقييم أمان آلية، مما يمثل خطوة ملموسة نحو تقييم أكثر صرامة وقابلية للتكرار لأمان الذكاء الاصطناعي.