في خطوة جديدة نحو تعزيز قدرات الأمن السيبراني، تم تقديم معيار "تحدي الدفاع السيبراني" (Cyber Defense Benchmark) الذي يهدف إلى تقييم مدى كفاءة نماذج اللغة الضخمة (LLMs) في أداء مهام اكتشاف التهديدات التي يقوم بها محللو مركز عمليات الأمن (SOC).
هذا التقييم يتطلب من النماذج تحليل سجلات الأحداث (event logs) الخاصة بنظام Windows دون تلميحات أو أسئلة موجهة، لتحديد توقيتات الأحداث الخبيثة بدقة. يشمل التحدي 106 إجراءات هجوم حقيقية مستمدة من مجموعة بيانات OTRF، تغطي 86 تقنية فرعية من تقنيات MITRE ATT&CK عبر 12 تكتيكاً مختلفاً. تتم معالجة التجربة ضمن بيئة تعليمية تعتمد على التعزيز (reinforcement learning) حيث يواجه الوكيل (agent) قاعدة بيانات SQLite تحتوي على سجلات تتراوح بين 75,000 إلى 135,000 سجل.
يجب على الوكيل القيام باستفسارات SQL لاكتشاف التوقيتمات الخبيثة للإبلاغ عنها بشكل واضح، حيث يتم تقييم أدائه بناءً على القواعد المستندة على Sigma. بعد تقييم خمسة نماذج رائدة مثل Claude Opus 4.6 وGPT-5 وGemini 3.1 Pro، وجد الباحثون أن الأداء كان مخيباً للآمال؛ حيث تمكن أفضل نموذج من تحديد 3.8% فقط من الأحداث الخبيثة بشكل صحيح.
تعني هذه النتائج أن نماذج اللغة الضخمة الحالية غير مناسبة للاستخدام بشكل فعّال في مهام اكتشاف التهديدات المفتوحة، على الرغم من أدائها الجيد في اختبارات أمان محددة. هذا الاكتشاف يدعو إلى إعادة التفكير في كيفية استخدام هذه التقنيات لتعزيز الأمن السيبراني.
تحدي الدفاع السيبراني: تقييم فعالية اكتشاف التهديدات للوكالات الذكية
تتضمن تجربة قياسية جديدة قياس أداء نماذج اللغة الضخمة في مجال اكتشاف التهديدات السيبرانية، حيث أظهرت النتائج عدم فعالية معظم النماذج الحالية في أداء هذه المهمة. هذا ما يكشف عنه التحدي الجديد الذي تم إطلاقه مؤخراً.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
