تتزايد استخدامات نماذج اللغة الكبيرة (Large Language Models - LLMs) كعوامل مستقلة قادرة على التفكير والتخطيط والعمل ضمن بيئات تفاعلية. وعلى الرغم من قدرتها المتزايدة على تنفيذ مهام متعددة الخطوات في الاستدلال واتخاذ القرار، إلا أن الآليات الداخلية التي توجه سلوكها المتتابع تظل غامضة.

يقدم هذا البحث إطارًا لتفسير تطور المفاهيم الزمنية في نماذج اللغة الكبيرة من خلال عدسة تفسير متسقة، حيث يجمع بين نمذجة المكافآت خطوة بخطوة (step-wise reward modeling) والتنبؤ المتناغم (conformal prediction) لتمييز تمثيلات النموذج الداخلية في كل خطوة على أنها ناجحة أو فاشلة. يتم تدريب مجسات خطية (linear probes) على هذه التمثيلات لتحديد اتجاهات المفاهيم الزمنية، أي الاتجاهات الكامنة في فضاء تفعيل النموذج التي ترتبط بنجاح أو فشل أو انحراف في التفكير.

أظهرت النتائج التجريبية على بيئتين تفاعليتين محاكتين، وهما ScienceWorld وAlfWorld، أن هذه المفاهيم الزمنية قابلة للفصل الخطي، كاشفة عن هياكل قابلة للتفسير متوافقة مع نجاح المهمة. علاوة على ذلك، تم عرض نتائج أولية لتحسين أداء وكيل نموذجي للغة باستخدام الإطار المقترح لتوجيه الاتجاهات الناجحة المحددة داخل النموذج.

تقدم هذه الطريقة المقترحة أسلوبًا مبدئيًا لاكتشاف الأخطاء مبكرًا والتدخل في وكلاء النماذج اللغوية الكبيرة، مما يفتح الطريق نحو نماذج لغوية مستقلة موثوقة في بيئات تفاعلية معقدة.