في عالم الذكاء الاصطناعي، تبرز أهمية استخدام نماذج اللغة الصغيرة (1-3B) في مهام توليد الشيفرات البرمجية، وعلى الرغم من قيودها في بعض المهام الصعبة، فقد أثبتت الدراسات أن ممارسة التنفيذ تعد أكثر فعالية من التركيب المعقد للأنابيب.

تتمثل الفكرة الأساسية في أن تجميع هذه النماذج في أنظمة متقدمة قد يُعيد بعض القدرات المفقودة في توليد الشيفرات. في هذا السياق، أُجريت دراسة حول أنظمة توليد الشيفرات التي تتألف من نماذج 1-3B مزودة بتقييم تنفيذ، مستخدمةً أسلوب بحث تطوري مستوحى من NEAT.

أظهرت النتائج المحققة من اختبارات HumanEval وMBPP أن استخدام التعزيز الذاتي مع تقييم التنفيذ حسّن من جودة الشيفرات المولدة بأكثر من 4 انحرافات معيارية في كلا المقياسين. ولكن، هناك ملاحظات معنية تتعلق بالآلية: فالتحسين الذاتي يساعد بشكل أساسي في تصحيح الأخطاء الزمنية مثل NameError وSyntaxError، لكنه نادراً ما يحل مشكلات الأخطاء المنطقية مثل AssertionError.

عند تقييم النماذج العامة، كان من الواضح أن هوية المُولد لم تكن ذات أهمية كبيرة مقارنة مع قدرة المصحح: حيث إن الجمع بين مُولد 1.5B ومُصحح 3B أدى إلى نتائج مماثلة لنموذج 3B يقوم بالدورين معاً.

الملاحظة المهمة الأخرى هي أن التوقف المبكر يعد ضروريًا للغاية؛ حيث إن عدم الالتزام به يؤدي إلى نتائج سلبية في كل دورة. كما أن النماذج المتخصصة في التعليمات البرمجية تفوقت على جميع تكوينات الأنابيب العامة، مما يشير إلى أهمية تخصص النموذج على هيكل الأنابيب.

في التجارب الأولية التي أجريت باستخدام الأنابيب النصية فقط دون تقييم تنفيذي، لم تظهر نتائج إيجابية بهذه الدقة. في بحثنا المقيد، كانت الاستراتيجيات التطورية تكتشف غالبًا نفس حلقة التوليد والتنفيذ والتصحيح البسيطة التي وجدناها يدويًا، دون وجود فوائد واضحة من إضافة هيكل معقد.

عند هذه المقاييس، كانت فعالية تقييم التنفيذ أكثر أهمية من التعقيد المضاف للأنابيب في تحديد ما إذا كانت التركيبة تُساعد في تحسين الأداء.