قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة

تمثل نموذج CodeRQ-Bench أول نظام لتقييم جودة التفكير في نماذج اللغة الكبيرة أثناء تنفيذ مهام البرمجة. الكشف عن ضعف التقييمات السابقة يؤدي إلى ابتكار نموذج VERA الجديد الذي يحسن دقة التقييم في هذه المهام.

شهدت نماذج اللغة الكبيرة (Large Language Models) تقدمًا مذهلاً في قدرتها على حل المهام البرمجية من خلال اعتماد أساليب تفكير واضحة. ومع ذلك، لا يزال تقييم جودة هذا التفكير يمثل تحديًا كبيرًا. فالتقييمات الحالية غير مصممة بشكلٍ خاص للبرمجة، وغالبًا ما تركز المعايير المستخدمة على توليد الأكواد (Code Generation) دون النظر إلى الأنواع الأخرى من المهام البرمجية.

هنا يأتي دور CodeRQ-Bench، وهو أول نظام لتقييم جودة التفكير في نماذج اللغة الكبيرة عبر ثلاث فئات من مهام البرمجة: التوليد، والتلخيص، والتصنيف. من خلال هذا النظام الجديد، قمنا بتحليل 1,069 حالة عدم تطابق من تقييمات سابقة، ونجحنا في تحديد خمسة قيود متكررة واستنتاج أربعة رؤى تصميمية تهدف إلى تحسين تقييم التفكير في مهام البرمجة.

مدعومين بهذه الرؤى، قمنا بتطوير نموذج VERA، وهو مُقيّم ذو مرحلتين يجمع بين التحقق المدعوم بالأدلة وتصحيح الدرجات الذكية. تظهر التجارب التي أجريناها على CodeRQ-Bench أن VERA يتفوق باستمرار على المعايير التقليدية، حيث يحسن AUCROC حتى 0.26 وAUPRC حتى 0.21.

نحن فخورون بالإعلان عن إصدار CodeRQ-Bench عبر الرابط [هنا](https://github.com/MrLYG/CodeRQ-Bench)، مما يدعم الأبحاث المستقبلية في هذا المجال. مع هذا التقدم الجديد، ندعو مجتمع الذكاء الاصطناعي لاستكشاف المزيد والمساهمة في تحسين جوانب تقييم البرمجة.

قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة

📰 أخبار ذات صلة

كانفا AI 2.0: ثورة في عالم التصميم والإبداع! 🚀

الانفجار الجديد لتطبيقات الهواتف: هل تقود أدوات الذكاء الاصطناعي ثورة برمجية؟

تطبيقات الذكاء الاصطناعي اقتحمت عالم الحواسيب: هل أنتم مستعدون؟