هل تحلم الوكلاء بصدفة الجذور؟ تقييم مبتكر لوكلاء نماذج اللغة الكبيرة في تحديات التقاط العلم
🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

هل تحلم الوكلاء بصدفة الجذور؟ تقييم مبتكر لوكلاء نماذج اللغة الكبيرة في تحديات التقاط العلم

تعتبر وكالات نماذج اللغة الكبيرة خطوة جديدة نحو أتمتة المهام الأمنية، لكن قدراتها في البيئات الهجومية ما زالت غامضة. نقدم DeepRed، معيار لتقييم تلك الوكالات في تحديات التقاط العلم.

في عصر تتزايد فيه الحاجة إلى الأمن السيبراني، تظهر وكالات نماذج اللغة الكبيرة (LLM) كحل واعد لأتمتة العديد من المهام المختلفة. إلا أن فهم قدراتها في البيئات الهجومية ما زال محدودًا. هنا يأتي دور مشروع DeepRed، وهو معيار مفتوح المصدر يهدف إلى تقييم وكالات نماذج اللغة الكبيرة في سياقات حقيقية من تحديات التقاط العلم (Capture The Flag) ضمن بيئات افتراضية معزولة.

يضع معيار DeepRed الوكيل في بيئة Kali للهجوم، حيث يتوفر له مجموعة من الأدوات عبر الطرفيات وخيارات البحث على شبكة الإنترنت، متصلًا بشبكة خاصة تتفاعل مع تحديات معينة. بالإضافة إلى ذلك، يقوم النظام بتسجيل جميع مسارات التنفيذ لأغراض التحليل العميق.

وكمحاولة لتجاوز النتائج الثنائية التقليدية (محلولة/غير محلولة)، تم إدخال طريقة تقييم رصيد جزئي تعتمد على نقاط تفتيش معينة مأخوذة من كتابات عامة، بالإضافة إلى خط أنابيب تلقائي لتلخيص النتائج ثم تقييمها استنادًا إلى السجلات.

باستخدام DeepRed، تم تقييم عشرة نماذج LLM تجارية على عشرة تحديات التقاط العلم تختلف في نوعها. النتائج كانت مثيرة: حيث أظهر أفضل نموذج إكمال نقاط تفتيش بمعدل 35% فقط، مما يشير إلى أن وكالات الذكاء الاصطناعي الحالية لا تزال تواجه تحديات كبيرة، خاصة في المهام التي تتطلب اكتشافات غير قياسية وتكيفات معقدة.

إن التطورات في هذا المجال تبشر بآفاق جديدة للأمن السيبراني، ومع ذلك، تبرز الحاجة إلى تحسين تكيف الوكلاء مع البيئات الهجومية المعقدة. هل تعتقد أن هذه الأنظمة ستتطور لتصبح أكثر فاعلية في المستقبل؟ شاركونا آراءكم في التعليقات.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة