في عالم البرمجة المتسارع اليوم، تُظهر نماذج اللغات الضخمة (Large Language Models) كفاءة عالية في البرمجة العامة، إلا أنها تواجه صعوبات كبيرة عندما يتعلق الأمر بتطوير البرمجيات المتخصصة. لذا، أصبحت الحاجة إلى طرق متخصصة لتعليم وتعزيز هذه النماذج بمعرفة محددة ضرورية. لكن للأسف، لا يمكن للمعايير الحالية الخاصة بالبرمجيات المتخصصة تقييم فعالية هذه الطرق بشكل صحيح، حيث تركز في الغالب على تقييم المعرفة الموجودة دون النظر إلى كيفية اكتساب وتطبيق معرفة جديدة.

لذا تم تقديم KOCO-BENCH، معيار جديد يُعد ثوريًا في مجال تطوير البرمجيات، يهدف إلى تقييم الأساليب المتخصصة في السياقات الواقعية. يتضمن KOCO-BENCH ست مجالات ناشئة مع 11 إطار عمل برمجي و25 مشروعًا، ويتضمن مجموعة من المعرفة المنسقة مع مهام تقييم متعددة المستويات، تتراوح بين إنشاء الكود على مستوى الوظيفة إلى مستوى المشروع، بالإضافة إلى تقييم فهم المعرفة من خلال أسئلة متعددة الاختيارات.

وعلى عكس المعايير السابقة، التي كانت تقدم مجموعات اختبارية للتقييم المباشر فقط، يتطلب KOCO-BENCH اكتساب وتطبيق معارف متخصصة متنوعة (مثل واجهات البرمجة، والقواعد، والقيود) من مجموعة المعرفة لحل مهام التقييم. لكشف النقاب عن فعالية هذا المعيار، أظهرت التقييمات أن KOCO-BENCH يمثل تحديات كبيرة حتى لأحدث نماذج اللغات الضخمة، حيث حقق أفضل الموديلات، مثل Claude Code، نتائج متواضعة لا تتجاوز 34.2%. مما يشير إلى الحاجة المُلحة لتطوير مزيد من الطرق المتخصصة الفعالة.

وعليه، تم إطلاق KOCO-BENCH، برفقة كود التقييم والأسس اللازمة لتطوير أبحاث مستقبلية، مما يمهد الطريق لتحسينات كبيرة في مجال البرمجة المتخصصة. لمزيد من المعلومات، يُمكنكم زيارة [KOCO-BENCH GitHub](https://github.com/jiangxxxue/KOCO-bench).