تسير الصناعة البرمجية سريعًا نحو اعتماد أنظمة مراجعة الشيفرات التلقائية (Automated Code Review - ACR) المدعومة بنماذج اللغات الضخمة (Large Language Models - LLMs). ولكن إلى أي مدى تؤثر الانحيازات السياقية على أداء هذه الأنظمة؟ في بحثنا الجديد، نستعرض كيف يمكن للانحيازات أن تؤثر بشكل كبير على الكشف عن الثغرات الأمنية.

من المعروف أن هناك ظاهرة تُعرف باسم "تأثير الإطار"، حيث يمكن أن يؤثر شكل تقديم المعلومات على الأحكام المتعلقة بها. وقد أظهرت دراستنا أن هذه الظاهرة تسود في أنظمة مراجعة الشيفرات المدعومة بنماذج اللغات، حيث أثبتت الأنماط الخالية من الأخطاء تأثيرًا قويًا على الأحكام الأمنية.

قمنا بإجراء دراسة موسعة على 6 نماذج لغوية تحت 5 ظروف تأطير مختلفة، مما ساعد في تحديد خطورة تلك الانحيازات. كما أقمنا بيئة تجريبية محكمة لتقييم أنظمة ACR المستخدمة في 10 مشروعات حقيقية، مع دراسة 17 ثغرة معروفة (CVEs).

استحدثنا استراتيجيتين للهجوم؛ هجوم يعتمد على نموذج سابق واستراتيجية جديدة تعتمد على تحسين تكراري بالتعاون مع نماذج اللغة. وللأسف، كانت الهجمات القائمة على القوالب غير فعالة وقد تؤدي إلى نتائج عكسية، حيث تثير الشكوك لدى المدافعين. لكن استراتيجيتنا الجديدة حققت نجاحًا كاملًا، مستفيدة من عدم التوازن في الجهود بين المهاجمين والمدافعين.

يمكن أن تُستعاد فعالية أنظمة مراجعة الشيفرات من خلال إزالة البيانات المتحيزة وإعطاء تعليمات واضحة، مما يُظهر أهمية المراقبة البشرية والثقة في عملية تطوير البرمجيات.

بلا شك، تشير نتائجنا إلى ضرورة أن نكون أكثر حذرًا في استخدام أنظمة ACR، وضرورة دمج المراجعة البشرية للتأكد من سلامة الشيفرات الأمنية والبرمجيات.