تسارعت وتيرة تطور نماذج اللغات الضخمة (Large Language Models) واستخدامها في مجالات تتطلب تكنولوجيات المعلومات الحديثة، مما أدى إلى الحاجة الملحة لتقييم معارف هذه النماذج وفقًا للمعايير الصناعية المعترف بها. نقدم لكم CyberCertBench، مجموعة جديدة من معايير اختبار الإجابة متعددة الخيارات (Multiple Choice Question Answering - MCQA) المُشتقة من الشهادات المعترف بها في الصناعة.

يهدف CyberCertBench إلى تقييم معرفة نماذج اللغات الضخمة في مجالات أمان المعلومات، بما في ذلك المعايير المتخصصة مثل تكنولوجيا التشغيل والمعايير ذات الصلة بالأمن السيبراني. علاوة على ذلك، نقدم إطار العمل المبتكر الذي نطلق عليه اسم "مقترح-محقق" (Proposer-Verifier)، وهو منهجية تُستخدم لإنشاء تفسيرات لغة طبيعية قابلة للتفسير حول أداء النماذج.

أظهرت تقييماتنا أن النماذج المتطورة تصل إلى مستوى خبراء البشر في مجالات المعرفة العامة بالشبكات وأمان تكنولوجيا المعلومات. لكن، تراجعت دقتها في الأسئلة التي تتطلب معرفة دقيقة بالمعايير أو تفاصيل محددة معينة، مثل معيار IEC 62443. كما أن تحليل اتجاهات النماذج وإصداراتها أظهر مكاسب بارزة في كفاءة المعلمات، على الرغم من أن النماذج الأكبر حديثًا بدأت تُظهر عوائد متناقصة.

كل هذه التفاصيل والرؤى متاحة لمن يرغب في الغوص في عالم الأمن السيبراني والتكنولوجيا الحديثة، من خلال زيارة [الرابط](https://github.com/GKeppler/CyberCertBench). هل أنتم مستعدون للانخراط في هذه الثورة التكنولوجية؟ شاركونا آرائكم في التعليقات!