ابتكار ثوري: SelfGrader يكشف هجمات jailbreak على نماذج الذكاء الاصطناعي بشكل مذهل
تم الكشف عن تقنية جديدة تدعى SelfGrader، تهدف إلى تعزيز أمان نماذج اللغات الكبيرة من هجمات jailbreak. تعتمد هذه التقنية على تحليل توكنات الاستجابة لتوفير آلية كشف سريعة وفعالة.
تعتبر نماذج اللغات الكبيرة (Large Language Models - LLMs) من الأدوات القوية في تقديم الإجابات على استفسارات المستخدمين، لكن ورغم فعاليتها، تظل هذه النماذج عرضة بشكل كبير لهجمات jailbreak. العديد من تقنيات الحماية الحالية تعتمد على ميزات داخلية أو ردود نصية لكشف الاستفسارات الضارة، مما يؤدي غالبًا إلى زيادة زمن الاستجابة أو تأثرها بالعشوائية في توليد النصوص.
لمعالجة تلك القيود، تم تقديم تقنية جديدة تُعرف بـ SelfGrader، وهي وسيلة حماية خفيفة الوزن تصوغ عملية كشف هجمات jailbreak كمشكلة تقييم رقمية تعتمد على التوكنات. تتضمن هذه العملية تقييم سلامة الاستفسارات من خلال مجموعة من التوكنات الرقمية (Numeric Tokens - NTs) مثل الأرقام من 0 إلى 9، وتفسير توزيعها كإشارة داخلية للسلامة.
تسعى SelfGrader إلى توافق تلك الإشارات مع الفهم البشري لطبيعة الاستفسار الضار. لذا، تم تقديم قاعدة تسجيل ذات وجهتي نظر تأخذ في اعتبارها طبيعة الاستفسار الضارة والحميدة، مما يوفر تقييمًا مستقرًا وسهل الفهم يعكس درجة الخطورة ويقلل من معدل الإيجابيات الكاذبة في الوقت نفسه.
أظهرت التجارب الواسعة عبر مجموعة متنوعة من معايير jailbreak، بالإضافة إلى عدة نماذج LLM، أن SelfGrader حققت تخفيضًا يصل إلى 22.66% في معدل الاستجابة الضارة (ASR) على نموذج LLaMA-3-8B، مع الحفاظ على تقليل كبير في ذاكرة التشغيل (حتى 173 مرة) وزمن الاستجابة (حتى 26 مرة). هذه النتائج تشير إلى خطوة هامة نحو تعزيز الأمان في تطبيقات الذكاء الاصطناعي.
لمعالجة تلك القيود، تم تقديم تقنية جديدة تُعرف بـ SelfGrader، وهي وسيلة حماية خفيفة الوزن تصوغ عملية كشف هجمات jailbreak كمشكلة تقييم رقمية تعتمد على التوكنات. تتضمن هذه العملية تقييم سلامة الاستفسارات من خلال مجموعة من التوكنات الرقمية (Numeric Tokens - NTs) مثل الأرقام من 0 إلى 9، وتفسير توزيعها كإشارة داخلية للسلامة.
تسعى SelfGrader إلى توافق تلك الإشارات مع الفهم البشري لطبيعة الاستفسار الضار. لذا، تم تقديم قاعدة تسجيل ذات وجهتي نظر تأخذ في اعتبارها طبيعة الاستفسار الضارة والحميدة، مما يوفر تقييمًا مستقرًا وسهل الفهم يعكس درجة الخطورة ويقلل من معدل الإيجابيات الكاذبة في الوقت نفسه.
أظهرت التجارب الواسعة عبر مجموعة متنوعة من معايير jailbreak، بالإضافة إلى عدة نماذج LLM، أن SelfGrader حققت تخفيضًا يصل إلى 22.66% في معدل الاستجابة الضارة (ASR) على نموذج LLaMA-3-8B، مع الحفاظ على تقليل كبير في ذاكرة التشغيل (حتى 173 مرة) وزمن الاستجابة (حتى 26 مرة). هذه النتائج تشير إلى خطوة هامة نحو تعزيز الأمان في تطبيقات الذكاء الاصطناعي.

