في عالم يتزايد فيه الاعتماد على الذكاء الاصطناعي في الأبحاث العلمية، تظهر فجوة خطيرة قد تهدد مصداقية هذه الأبحاث. تمثل باحثون دخول ساحة جديدة من خلال تقديم SciCoQA، مجموعة بيانات تعتبر الأولى من نوعها التي تهدف إلى التحقق من التوافق بين الأبحاث والشفرات البرمجية. تتضمن هذه المجموعة 635 حالة من التناقضات بين الأبحاث والشفرات، منها 92 حالة حقيقية و543 حالة صناعية.

ومع تصاعد استخدام نماذج اللغات الضخمة (Large Language Models)، أصبح من الضروري قياس قدرتها على اكتشاف هذه الفجوات. للأسف، أظهرت النتائج أن حتى نماذج مثل Gemini 3.1 Pro وGPT-5 Mini لم تتمكن من اكتشاف سوى 46.7% من التناقضات الحقيقية، مما يبرز حاجة ملحة لتحسين כּيفية ضمان جودة الأبحاث.

قام الباحثون بإنشاء SciCoQA بناءً على قضايا GitHub وأبحاث القابلية للتكرار، كما اقترحوا خط أنابيب للجيل الصناعي للسماح بالتوسع في مجالات مثل الفيزياء وعلم الأحياء الكمي وغيرها من العلوم الحاسوبية. وتم تطوير تصنيف لتحديد أنواع وفئات هذه التناقضات، حيث تبين أن النماذج تواجه صعوبة خاصة مع تفاصيل غير موجودة في الأبحاث، ومدخلات طويلة السياق، والأبحاث التي تقع خارج نطاق تدريبها السابق.

إن نجاح أي مجال علمي يتطلب موثوقية المعلومات، وتناول التناقضات بين الأبحاث والشفرات البرمجية هو خطوة ضرورية نحو تحقيق ذلك.