هجمات الاختراق المستهدفة على نماذج التفكير الكبيرة: كيف تؤثر الإطارات النفسية على الأمان؟
🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

هجمات الاختراق المستهدفة على نماذج التفكير الكبيرة: كيف تؤثر الإطارات النفسية على الأمان؟

تسلط دراسة جديدة الضوء على هجمات اختراق تستهدف عملية التفكير في النماذج اللغوية الكبيرة، محذرة من كيفية التأثير السلبي للإطارات النفسية على الأمان. استخدم الباحثون استراتيجيات مبتكرة لضمان الوصول إلى محتوى ضار دون تعديل النتائج النهائية.

في عالم الذكاء الاصطناعي، ومع تزايد اعتماده في مجالات حيوية مثل الرعاية الصحية والتعليم، يبدو أن النماذج اللغوية الكبيرة (Large Reasoning Models) قد حققت إنجازات ملحوظة في توليد سلاسل تفكير معقدة. ومع ذلك، يطرح بحث جديد تساؤلات جدية حول سلامة هذه النماذج، حيث يكشف كيف يمكن استغلال هجمات الاختراق لتوجيه محتوى ضار أثناء عمليات التفكير.

تعتمد الدراسة، التي تم نشرها على منصة arXiv، على مفهوم جديد يعرف بهجوم اختراق مستهدف يعتمد على التفكير النفسي باستخدام الإشارات الدلالية. يتناول هذا البحث تحديين رئيسيين: الأول هو أن أي تعديل في التعليمات المدخلة قد يؤدي إلى تغيير الإجابة النهائية للنموذج، والثاني هو تنوع الأسئلة المدخلة الذي يجعل من الصعب تجاوز آليات الأمان المدمجة في النماذج.

لتجاوز هذه التحديات، قدم الباحثون إطار عمل جديد يطلق عليه "إطار هجوم الاختراق المستهدف القائم على التفكير النفسي" (PRJA). يتضمن هذا الإطار خوارزمية لاختيار الإشارات الدلالية بشكل تلقائي، بالإضافة إلى استخدام نظريات نفسية تتعلق بالطاعة للسلطة والانفصال الأخلاقي لتوليد تعليمات مرنة تضمن امتثال النماذج لإنتاج محتوى ضار.

أظهرت التجارب أن هذا الإطار استطاع تحقيق معدل نجاح في الاختراق بلغ 83.6% عند تجربته على عدة نماذج تجارية مثل DeepSeek R1 وQwen2.5-Max وOpenAI o4-mini.

هذا البحث يفتح المجال لوضع استراتيجيات أمان أكثر شمولاً لمواجهة مثل هذه الهجمات المستهدفة، مما يجعله نقطة انطلاق هامة للنقاش حول قضايا الأمان في عالم النماذج اللغوية الكبيرة.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة