في عالم الذكاء الاصطناعي، تُعتبر النماذج المحولة (Transformers) من أبرز الأدوات المستخدمة في معالجة البيانات وفهم الهياكل المعقدة. ومع ذلك، تواجه هذه النماذج تحديات كبيرة في مجال التفكير الرمزي، وهو قدرة الحواسيب على معالجة وإنتاج قرارات منطقية بناءً على معلومات مجردة.

قد أظهرت الدراسات السابقة أن هذه النماذج تفشل في تعميم المفاهيم الجديدة عندما تتعلق بمشكلات منطقية تحتوي على رموز أو متغيرات لم يسبق لها أن تمت رؤيتها أثناء التدريب. واحدة من الأسباب وراء ذلك، كما تم اكتشافه، هي الصعوبة في نسخ أو إنتاج الرموز التي لم يتم ملاحظتها من قبل.

تناولت دراستنا الأخيرة هذه المشكلة من منظور جديد، حيث وجدنا أن هنالك تقليلاً تمثيلياً مهماً يحدث في نماذج المحولات؛ حيث تتقارب الأوزان النهائية للرموز غير المرئية إلى نفس المتجه تقريباً أثناء التدريب. وهذا يجعل من الصعب على النموذج تمييز المتغيرات غير المرئية، خصوصاً في الحالات التي يتم فيها مشاركة معلمات النسخ.

لنقدم حلاً لهذه العقبة، طورنا مجموعة من التقنيات تتضمن تغييرات بسيطة في العمارة المعمارية، بجانب ضمان تنوع البيانات، وضبط أو إعادة تعيين الأوزان الخاصة بالرموز. هذه الأساليب أثبتت فعاليتها من خلال تجارب مكثفة على مشكلات المنطق، مما أدى إلى تحسين قدرة النماذج على التعميم حتى الرموز غير المرئية.

علاوة على ذلك، لاحظنا علامات على انهيار الأوزان في نماذج Gemma 3، التي تحتوي على 99 رمزاً غير مستخدم، مما يعمل على تقديم دلائل على ضعف التهيئة للتطبيقات المستهدفة. لذلك، يمكننا أن نستنتج أن الاستثمار في تحسين النماذج المحولة لم يعد مجرد ترف، بل ضرورة لفهم عميق لحياة رمزية معقدة حيث تتطور الذكاء الاصطناعي.

هل أنت مستعد لاستكشاف المزيد من التطورات في الذكاء الاصطناعي؟ شاركنا آراءك في التعليقات!