# مقدمة
في عالم معالجة اللغة الطبيعية (NLP)، تزداد أهمية الأنظمة متعددة المكونات، حيث تعتمد قرارات حاسمة على دقة هذه الأنظمة. لكن كيف نختبر قوة هذه الأنظمة في ظل الظروف الواقعية؟
# نموذج التهديد الأسود
تقدم الدراسة الجديدة نموذج تهديد صارم يُعرف بـ "نموذج الصندوق الأسود"، الذي يتناول كيفية اختبار الأنظمة عندما لا نملك حق الوصول إلى التدرجات، ونحتاج لنتائج طبقًا لمراجعة ثنائية فقط.
# الإطار الهجومي
يستند إطار العمل المقترح إلى وكالتين:
1. **وكالة المهاجم (Attacker Agent)**: تنشئ إعادة كتابة تحافظ على المعنى.
2. **وكالة تحسين التنبيه (Prompt Optimization Agent)**: تكرر الاستراتيجية بناءً على التغذية الراجعة الثنائية ضمن ميزانية 10 استفسارات.
# النتائج المدهشة
عند تقييم الإطار ضد أربعة أنظمة قائمة على الأدلة لاكتشاف المعلومات المضللة، حققت معدلات تهرب تتراوح بين 19.95% إلى 40.34% في أنظمة النماذج اللغوية الكبيرة (LLM)، بينما لم تتجاوز أعلى نسبة تهرب 3.90% لمستويات التشويش النصي التي تقوم على نماذج بديلة.
# استنتاج عام
تظهر النتائج أن أنظمة المعالجة التي تعتمد على استرجاع كلمات ثابتة تعرضت لعجز كبير يصل إلى 97.02%، مما يُبرز كيف تؤثر اختيارات العمارة على سطح الهجوم.
# استراتيجيات الدفاع
يمكن تقليل معدل التهرب بنسبة تصل إلى 65.18% من خلال استراتيجيات دفاع مبنية على تحليل أنماط الاستغلال.
# خاتمة
مع تعقيد الأنظمة، يصبح اكتشاف استراتيجيات التهرب المرنة أمرًا ضروريًا لتحقيق مستوى عالٍ من الأمان.
هل كنت تتوقع أن تكون أنظمة NLPS بهذه الهشاشة؟ شاركنا رأيك!
ثورة في معالجة اللغة: كيف تكشف إعادة الكتابة الهجومية عن نقاط الضعف المعمارية في أنظمة الذكاء الاصطناعي!
تقدِّم الدراسة الجديدة نموذج تهديد صارم لاختبار متانة أنظمة معالجة اللغة الطبيعية. يستخدم هذا النموذج وكالتين هجوميتين للوصول إلى أعلى معدلات التهرب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
