في دراسة حديثة على نظام المُحوِّلات (Transformers)، تم تسليط الضوء على ثلاث ظواهر غريبة وغير متوقعة تحدث خلال فترة تدريب هذه النماذج. هذه الاكتشافات تلقي الضوء على كيفية تحسين أداء النماذج بشكل ملحوظ.
1. موجات الضغط المتنقلة
اكتشف الباحثون أن موجات الضغط المستقرة تتشكل وتنتقل عبر المراحل المختلفة لنموذج المُحوِّل. تبدأ هذه الموجات من الطبقات الأولى وتتحرك إلى الطبقات الأعمق، حيث تخلق تدرجًا دراماتيكيًا يصل ذروته في وقت مبكر قبل أن يبدأ في الانعكاس.
2. التدرجات الطيفية الثابتة
كما وُجد أن القوة الطيفية (Power-law exponent) تتطور إلى تدرجات عمق دائمة، مما يؤدي إلى تشكيل قوس مقلوب في النماذج الأعمق. مع تطور العمق، تنتقل ذروة التدرجات نحو الطبقات الأمامية.
3. عدم تماثل Q/K-V
في حين أن الإسقاطات المتعلقة بالقيم والمخرجات تتقلص بشكل متجانس، فإن إسقاطات الاستعلام/المفتاح تتحمل الديناميكيات المعتمدة على العمق. هذه التباينات تشير إلى أن الشكل الطيفي وسرعة الضغط يحملان معلومات مختلفة حول عملية التدريب.
شُكلت هذه النتائج في نموذج ديناميكي ذي مقياسين وتم التحقق منها عبر تسعة نماذج من ثلاثة عائلات مختلفة.
