ثغرة جديدة في أمان الوكلاء: التعليمات السليمة تكشف نقاط ضعف حرجة في الذكاء الاصطناعي

في عصر الذكاء الاصطناعي المتقدم، لا يخفى على أحد أن وكلاء الحواسيب (Computer-use Agents) أصبحوا قادرين على إتمام مهام معقدة بشكل تلقائي. ومع ذلك، يكمن الخطر الحقيقي في استخدام هذه الوكلاء بطريقة مضللة يمكن أن تؤدي إلى تنفيذ أعمال ضارة بشكل تلقائي.

تقوم التقييمات الأمنية الحالية بتركيز جهودها على التهديدات المباشرة مثل الاستخدام غير المشروع وإدخال الأوامر الضارة، لكنها تتجاهل إعدادات أكثر دقة وخطورة، حيث تكون التعليمات الموجهة للوكيل ليست عدائية ولكن السياق أو نتيجة التنفيذ هي ما يسبب الضرر.

لذلك، تم تقديم معيار OS-BLIND، والذي يهدف إلى تقييم وكلاء الحواسيب في ظروف هجوم غير مقصودة. يشمل هذا المعيار 300 مهمة مصممة يدويًا عبر 12 فئة، 8 تطبيقات، و2 من مجموعات التهديد: التهديدات المدمجة في البيئة وأضرار بدأها الوكيل نفسه. تظهر تقييماتنا أن معظم وكلاء الحواسيب تصل نسبة نجاح الهجمات معهم إلى 90%، حتى أن النموذج المتوافق مع معايير الأمان، Claude 4.5 Sonnet، يحقق نسبة 73%.

الأكثر إثارة للدهشة هو أن هذه الثغرة تزداد حدة عندما يتم نشر Claude 4.5 Sonnet ضمن أنظمة متعددة الوكلاء، حيث ترتفع نسبة نجاح الهجمات من 73% إلى 92.7%. تشير تحليلاتنا إلى أن الدفاعات الأمنية الحالية توفر حماية محدودة عند استخدام تعليمات بسيطة، حيث يتم تفعيل الضوابط الأمنية في البداية ولكنها نادرًا ما تعود للانخراط أثناء التنفيذ اللاحق.

بدعم من OS-BLIND، نأمل أن يتمكن المجتمع البحثي من فهم هذه التحديات الأمنية بشكل أعمق وأكثر شمولية، وتعزيز الأمان في عالم الذكاء الاصطناعي.

ثغرة جديدة في أمان الوكلاء: التعليمات السليمة تكشف نقاط ضعف حرجة في الذكاء الاصطناعي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!