في عالم الذكاء الاصطناعي، تظل نماذج اللغة الكبرى (Large Language Models) هشّة أمام هجمات الخصوم، حيث تستفيد هذه النماذج من التدريب المسبق على نطاق واسع. كشف بحث جديد يجسد مفهوم الهجوم الثلجي (PermaFrost-Attack) عن استراتيجيات دنيئة تهدف لإحداث تلاعب في هذه النماذج بطريقة سرية.
يعتمد هذا النوع من الهجوم على تقنية تُعرف باسم «التدريب المسبق الخفي» أو Stealth Pretraining Seeding (SPS)، حيث يقوم المهاجمون بإدراج كميات صغيرة من المحتوى السام على مواقع إنترنت تنشر هذه المواد بسلاسة لتحاكي محتوى عادي. ومن خلال مساعدة أدوات زحف شبكة الإنترنت (web crawlers) مثل robots.txt، يتمكن المهاجمون من زيادة احتمالية تضمين هذا المحتوى الضار ضمن مجموعة البيانات التدريبية المستقبلية.
تتميز هذه الهجمات بصعوبة اكتشافها، إذ أن كل شحنة ضارة صغيرة وغير ملحوظة، مما يجعل عملية البناء أو تصفية قاعدة البيانات أكثر تعقيدًا. وتُعتبر هذه المواد السلبية بمثابة «ألغام منطقية» متخفية، والتي قد تظل غير مرئية أثناء التقييم العادي، لكنها يمكن أن تنشط لاحقًا بواسطة مشغلات معينة لتجاوز الحواجز الأمنية.
يسلط البحث الضوء على كيفية تنفيذ هذا الهجوم عبر إطار عمل منظم جديد يُعرف باسم PermaFrost-Attack، والذي يتضمن مجموعة من التشخيصات الهندسية مثل الطول الديناميكي (Thermodynamic Length) والانحناء الطيفي (Spectral Curvature) ورسم تتبع العدوى (Infection Traceback Graph). ولقد أظهرت النتائج أن SPS فعّال بشكل كبير، مسببة سلوكيات غير آمنة بشكل مستمر، وغالبًا ما تتجاوز الدفاعات الأمنية دون أن تُكتشف.
يقدم هذا البحث كذلك عدسة تشخيص هندسية جديدة تسمح بفحص السلوكيات الكامنة للنماذج بشكل منهجي، مما يوفر أساسًا منهجيًا لرصد وفهم الثغرات التي قد تظل غير مرئية أمام التقييمات التقليدية. في سياق التطورات المستقبلية في نماذج الذكاء الاصطناعي، يُعتبر فهم هذه التهديدات الفعلية أمرًا ضروريًا للحفاظ على أمان هذه التقنية الحيوية.
الهجوم الثلجي: كيف يستغل الخصوم نماذج اللغة الكبرى لإخفاء مخاطر خطيرة؟
يكشف بحث جديد عن استراتيجيات خفية تتعلق بالتلاعب بنماذج اللغة الكبرى عبر زرع محتوى سام في البيانات. هذه التقنيات تهدد سلامة النماذج وتستدعي إعادة التفكير في طرق التركيب والتقييم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
