في عالم الذكاء الاصطناعي المتطور، تتصارع نماذج اللغة الكبيرة (Large Language Models) مع تحديات التفكير العميق، وقد أثبتت الأبحاث الحديثة أن الإشراف اللغوي الخارجي يمكن أن يحدث فرقًا كبيرًا في تحسين الأداء. حيث تم تقديم مفهوم جديد يعرف بـ "الإشراف اللغوي على العمليات" (Verbal Process Supervision - VPS)، الذي يُعد إطار عمل يركز على استغلال النقد المهيكل من مشرف أقوى، مما يساهم في تحسين حل المشكلات بشكل كبير.

تمت دراسة VPS عبر ثلاثة مجالات رئيسية، حيث ظهرت النتائج مثيرة. أولًا، في اختبار GPQA Diamond، حقق نموذج GPT-5.4 أداءً مذهلاً حيث وصلت دقته إلى 94.9%، متفوقًا على الأداء القياسي البالغ 94.1% دون الحاجة إلى تحديثات متكررة. ثانيًا، في اختبارات AIME 2025، أدى استخدام VPS إلى تعزيز نتائج المتنافسين الضعفاء بشكل غير عادي، حيث ارتفعت النتائج من 11.7% إلى 63.3%، ما يعكس زيادة قفزت بحوالي 63.3 نقطة.

علاوة على ذلك، في مجالات حسابية متساوية، تخطى أداء VPS أسلوب Reflexion بمعدل يتراوح بين 8.5 و12.1 نقطة، مما يسلط الضوء على أهمية دقة النقد كعامل رئيسي في تحسين الأداء. وقد لاحظ الباحثون أن زيادة الفجوة بين قدرات المشرف والممثل التصوري تعزز الأداء، بينما تتدهور فعالية النقد في الحالات التي لا يمكن التعبير فيها عن الأخطاء لغويًا، مثل شدات توليد الكود، مما يحفز الحاجة إلى استخدام أساليب هجينة تجمع بين النقد اللغوي والتنفيذي.

بالتالي، أظهرت النتائج أن دقة النقد تشكل محورًا جديدًا في توسيع قدرات التفكير لنماذج الذكاء الاصطناعي، حيث يُعبر هذا التطور عن تغير مثير في طريقة التعامل مع التحديات التي تواجهها هذه النماذج.