في عالم البرمجيات المعقدة، يُعتبر اكتشاف العيوب (Defect Discovery) أحد التحديات الكبرى التي تواجه المطورين. ومع تزايد الاعتماد على نماذج اللغات الضخمة (Large Language Models) في هذا المجال، ظهرت أزمة دقة تقض مضاجع المطورين، حيث تتزايد التقارير المضللة التي تُثقل كاهل فرق الصيانة وتؤثر سلبًا على مصداقية النتائج الحقيقية.

تقدم الدراسة الحديثة منهجية جديدة تُعرف باسم Refute-or-Promote، التي تُمثل مرحلة مراجعة تعتمد على الاقتران الاستدلالي بين الاستراتيجيات المختلفة، بما في ذلك صيد السياق الطبقي (Stratified Context Hunting) للتوليد المرشح، وفرضية القتل الخصمي (Adversarial Kill Mandates).

تعمل هذه المنهجية عبر استخدام وكلاء خصوم (Adversarial Agents) يحاولون دحض المرشحين في كل بوابة ترقية، مما يساعد على تقليل الانهيارات المعرفية (Anchoring Cascades). وقد تم اختبار هذه المنهجية على مدار 31 يومًا عبر سبعة أهداف مختلفة، بما في ذلك مكتبات الأمان، ومعيار C++ الدولي، وبعض المترجمات الكبرى. وتمكن النظام من القضاء على حوالي 79% من المرشحين البالغ عددهم 171 قبل الوصول إلى مرحلة الكشف.

ما يثير الاهتمام هو أن النسبة ارتفعت إلى 83% في مجموعة معينة من التجارب، مع تحقيق نتائج مثمرة مثل اكتشاف أربعة ثغرات مسجلة رسميًا، وإصلاحات تتعلق بالأمان، وقبول ورقة عمل تتعلق بمعيار C++.

تُظهر هذه المنهجية أن أكثر الأنباء جاذبية ليست دائمًا صحيحة، كما حدث عندما أيد عشرة مراجعين ثغرة غير موجودة في وحدة OpenSSL، والتي تم القضاء عليها فقط من خلال اختبار تجريبي.

في الختام، تُعتبر منهجية Refute-or-Promote خطوة نوعية في مجال اكتشاف العيوب، حيث تساهم في تقليل النتائج الخاطئة التي تنتج عن نماذج اللغات الضخمة، مما يمهد الطريق لمستقبل أكثر دقة وموثوقية في هذا القطاع.