في دراسة جديدة نشرت على منصة arXiv، استكشف الباحثون كيف يمكن دمج قيود الذاكرة العاملة البشرية في هندسة نماذج ترانسفورمر (Transformer) لتعزيز أداء هذه النماذج في مهام التعلم. تم تعديل نماذج GPT-2 وتم تدريبها من الصفر على مجموعات بيانات مناسبة للتطور البشري تتألف من 10 ملايين و100 مليون كلمة.

تضمنت هذه الدراسة تطوير عدة متغيرات ملهمة من الناحية الإدراكية لآلية الانتباه، بما في ذلك آليات الانتباه المعتمدة على نوافذ ثابتة العرض وآليات الانتباه المعتمدة على التحلل الزمني. وقد تم تقييم أداء النماذج المعدلة من خلال مهام الحكم النحوي (BLiMP) ومدى توافقها مع بيانات زمن القراءة البشرية.

أظهرت النتائج أن هذه القيود المستوحاة من الإدراك، وبالأخص انتباه العرض الثابت، يمكن أن تحسن بشكل كبير من دقة النحو، خاصة عندما تكون بيانات التدريب غير كافية. كما أن النماذج المقيدة تميل إلى إظهار توافق أقوى مع مقاييس معالجة الإنسان.

تشير هذه النتائج إلى أن مثل هذه القيود قد تكون بمثابة تحيز استنتاجي مفيد، يوجه النماذج نحو تمثيلات لغوية أكثر قوة، خاصة في سياقات البيانات المحدودة. يبدو أن هذه الاكتشافات تفتح آفاقًا جديدة لفهم كيفية تعزيز التعلم واستخدام الذاكرة في نماذج الذكاء الاصطناعي.