# ثورة AutoRISE في استراتيجيات الهجوم على نماذج اللغة الكبرى

في عالم الذكاء الاصطناعي (AI)، غالبًا ما تُستخدم تقنيات **Red-Teaming** لتقييم قوة نماذج اللغة الكبرى (Large Language Models) من خلال محاكاة هجمات متنوعة. لكن ما الجديد في هذا المجال؟ هنا تبرز أهمية تقنية **AutoRISE**.

فبدلًا من الاعتماد على محفزات هجوم ثابتة صممها البشر، يهدف نظام AutoRISE إلى تحسين استراتيجية الهجوم نفسها. إذ يقوم باحثون بتطوير طريقة تستند إلى بحث شامل في برامج الهجوم القابلة للتنفيذ بدلاً من تحفيزات فردية. في كل دورة تطوير، يقوم وكيل برمجي (Coding Agent) بتحرير الاستراتيجية، بينما تقوم أداة تقييم ثابتة بتقدير نتائج الهجمات، مع توفير كلاً من هدف عددي وتشخيصات تساعد في توجيه التعديلات المستقبلية.

تمثل هذه الطريقة تحولًا هيكليًا، حيث يمكن أن تشمل مكونات هجوم جديدة وتغيير تدفق التحكم، وهو ما لا تعبر عنه الطرق التقليدية المرتبطة بالمستويات التحفيزية.

المثير للإعجاب هو أن AutoRISE قد أظهر تحسنًا ملحوظًا في معدل نجاح الهجمات، حيث سجل معدل تحسن يبلغ 17 نقطة على اقوى قاعدة مقابل 11 نموذجًا ينتمي لخمسة عائلات مختلفة تم تقييمها ضد سبع مجموعات بيانات معروفة. وهذا يعني أن AutoRISE يُثَبِّت قدرته على تجاوز المشكلة التقليدية بالتجزئة وتقديم حلول مبتكرة ومختلفة تمامًا.

لم تتطلب تقنية AutoRISE أي تحسين لشبكة النموذج، أو تأشير بشري، أو حتى قدرة حوسبة متقدمة، مما يجعلها مناسبة للاستخدام في البيئات التي تتطلب اختبارات فعالة ولكن سريعة.