في عصر يتزايد فيه الاعتماد على نماذج اللغات الضخمة (Large Language Models) في معالجات المعلومات الحساسة، يأتي هجوم جديد يُدعى Transient Turn Injection (TTI) ليُبرز الثغرات الموجودة في هذه الأنظمة.

**الهجوم بطريقة TTI** يقوم بانتزاع الفائدة من ضعف التحكم في الدردشات، حيث يوزع النوايا العدائية على تفاعلات معزولة بدلاً من الاعتماد على سياق محادثة مستمر. يقوم المهاجمون بتطوير عملائهم الآليين المدعومين بنماذج الذكاء الاصطناعي لاختبار السياسات الأمنية، مما يتيح لهم تجاوز الحواجز الموضوعة في كل من النماذج التجارية والمفتوحة المصدر.

في دراستنا، قمنا بتقييم نماذج متنوعة من الشركات الرائدة مثل OpenAI وAnthropic وGoogle Gemini وMeta، واكتشفنا تفاوتات كبيرة في قدرة هذه النماذج على مقاومة هجوم TTI. على الرغم من أن بعض المعماريات أظهرت متانة كبيرة، إلا أن آخرين وقعوا ضحية لثغرات غير معروفة، خاصة في المجالات ذات المخاطر العالية مثل الرعاية الصحية.

بالمقارنة مع طرق التلاعب العدائية التقليدية، يُظهر TTI فعالية واضحة، مما يستدعي تعزيز استراتيجيات الدفاع مثل تجميع السياقات على مستوى الجلسات وتطبيق تقنيات التوافق العميق. هذه الدراسة تبرز الحاجة الملحة إلى دفاعات شاملة وتعامل مستمر مع التهديدات المتطورة لضمان سلامة نشر نماذج الذكاء الاصطناعي في المستقبل.

ما هي آليات الدفاع التي ترونها ضرورية لحماية نماذج الذكاء الاصطناعي من هذه الهجمات؟ شاركونا آرائكم في التعليقات.