تُعتبر نماذج اللغة الكبيرة (Large Language Models - LLMs) من أعظم الابتكارات في مجال الذكاء الاصطناعي، ولكنها لا تزال تواجه تحديات كبيرة، حيث يمكن كسر حمايتها (jailbreak) وظهور مخرجات ضارة رغم تدابير الأمان. في دراسة جديدة، يقوم الباحثون بتوجيه الأسئلة نحو الآليات الداخلية التي تسبب هذه الثغرات بدلاً من الاعتماد على العروض فقط.
الكشف عن آليات عمل Gemma-2-2B
تم اقتراح سلسلة من الخطوات لدراسة نموذج Gemma-2-2B باستخدام مجموعة بيانات BeaverTails. توضح هذه الدراسة كيفية استخراج رموز مفاهيمية من الاستجابات المعادية وتحليلها عبر ثلاث استراتيجيات لتجميع الخصائص:
1. **التجميع العنقودي (Cluster)**
2. **الربط الهرمي (Hierarchical Linkage)**
3. **القيادة بواسطة الرمز الفردي (Single Token-driven)**
نتائج مثيرة للاهتمام
كشفت النتائج أن الخصائص الموجودة في الطبقات من 16 إلى 25 كانت أكثر عرضة للتوجيه، مما يدل على أن الأجزاء المتوسطة والمتأخرة في النموذج مسؤولة بشكل أكبر عن المخرجات غير الآمنة. مما يعني أن التدخلات المستهدفة على مستوى الخصائص قد تقدم سبيلاً أكثر فعالية لتعزيز الأمان مقارنة بالدفاعات التقليدية على مستوى العروض.
تساؤلات للمستقبل
يطرح هذا الكشف سؤالًا مهمًا: كيف يمكننا استخدام هذه المعلومات لتعزيز فعالية نماذج اللغة الكبيرة واجتياز التحديات الحالية؟ ما هي الاستراتيجيات التي يمكن أن تُنفذ لتحسين الأمان؟
انضموا إلى الحوار وشاركونا آراءكم!
