تتناول الدراسات الجديدة تأثير الإشارات السطحية على نماذج اللغة الكبيرة (LLMs)، حيث أظهرت الأبحاث أن هذه النماذج تعاني من عيوب خطيرة تتعلق بالتفكير عندما تتعارض الإشارات الظاهرة مع القيود غير المعلنة. تمثل مشكلة "غسيل السيارات" مثالاً حياً على ذلك، حيث تم اختبار ستة نماذج مختلفة، ووجدت الأطروحات أن الإشارة البصرية للمسافة لها تأثير أكبر بكثير مما كان متوقعاً، مما جعلها تمثل عامل تأثير يصل إلى 38 مرة أكثر من الهدف المطلوب.

تم استخدام إطار عمل تشخيصي يتكون من أربع خطوات: التشخيص، القياس، الربط، والعلاج لفهم هذا السلوك. من خلال تحليل سلوكي سببي، تبين أن النماذج عرضت أنماط استدلال تتسم أكثر بالارتباطات القوية مع الكلمات بدلاً من التفكير التراكمي المعقد.

كما قام الباحثون بتطوير معيار جديد يسمى "معيار تجاوز الإشارات" (Heuristic Override Benchmark)، والذي شمل 500 حالة عبر 4 أنواع من الإشارات و5 عائلات من القيود، مما أظهر أن جميع النماذج المعتمدة لم تتمكن من تحقيق أداء أعلى من 75% تحت تقييم صارم. بالإضافة إلى ذلك، بينت النتائج أن منع القيود الأكثر صعوبة أدى إلى تراجع الأداء بمعدل يصل إلى 39 نقطة.

إحدى المفاجآت كانت أن تقديم تلميح بسيط، مثل التركيز على الكائن الرئيسي، يمكن أن يعيد تحسين الأداء بمعدل 15 نقطة مئوية في المتوسط، مما يدل على أن المشكلة تكمن في استنتاج القيود بدلاً من نقص المعرفة.

تؤكد هذه النتائج أن تجاوز الإشارات يعد نقصاً منهجياً في التفكير، مما يوفر معياراً لقياس التقدم نحو حل هذه القضية.