في الوقت الذي تواصل فيه نماذج اللغات الضخمة (Large Language Models) تحقيق تقدم ملحوظ في المهام المعقدة مثل الترجمة والإجابة على الأسئلة، تظل قدرتها على التعامل مع النوع الاجتماعي والاتفاق الصرفي موضوعاً يحتاج إلى المزيد من الاستكشاف. تمثل اللغات الغنية من الناحية الصرفية تحدياً كبيراً، حيث يؤثر النوع الاجتماعي على تصريف الأفعال، والضمائر، وحتى بناء الجمل باللغة الأولى مع الإشارات الصريحة والضمنية للنوع.

في هذا السياق، يتمثل أحدث الإنجازات في تقديم MORPHOGEN، وهو مجموعة بيانات رئيسية مصممة خصيصاً لتقييم قدرات النماذج على توليد النصوص بروح من العناية بالنوع الاجتماعي. تشمل هذه المجموعة ثلاث لغات متباينة نوعياً: الفرنسية، العربية، والهندية. تعتبر المهمة الأساسية، المعروفة باسم GENFORM، تحدياً يتطلب من النماذج إعادة صياغة جمل من وجهة نظر أول شخص مع تغيير النوع في الجملة بينما تحافظ على المعنى والبنية.

تم إنشاء مجموعة بيانات صناعية عالية الجودة تغطي هذه اللغات الثلاثة، وتم اختبار 15 نموذجاً شائعاً معروفاً بأحجام تتراوح بين 2 مليار إلى 70 مليار من المعلمات في قدرتها على إجراء هذه التحويلات. وكشفت النتائج وجود فجوات مهمة وأفكار مثيرة، تشير إلى كيفية تعامل النماذج الحالية مع النوع الاجتماعي الصرفي.

يوفر MORPHOGEN بديلاً دقيقاً لفهم نماذج اللغة الحساسة للنوع، ويمهد الطريق نحو أبحاث مستقبلية أفضل في معالجة اللغات بشكل شامل ومراعي للاختلافات الجندرية.