في عالم يزداد ترابطاً عبر الثقافات، تظهر أهمية تحقيق التوازن بين جميع الأطياف الثقافية في الفنون التكنولوجية. لقد حققت نماذج توليد الصور من النصوص (Text-to-Image Generation Models) أداءً رائعًا في سياقات ذات ثقافات متجانسة، ولكن كانت قدرتها على إنشاء مشاهد ثقافية متباينة لم تُستكشف بشكل كافٍ حتى الآن. في هذا الإطار، نقدم مفهوم توليد الصور من النصوص متعددة الثقافات كوظيفة جديدة، ونطرح أول مقياس مصمم لدراسة هذه الحالة.

يحتوي مجموع البيانات الذي أعددناه على 9000 صورة تغطي خمسة بلدان، وثلاث فئات عمرية، وجنسين، وخمسة وعشرون معلمًا تاريخيًا، وخمس لغات، مما يفتح المجال أمام تحليل سلوك نماذج توليد الصور الحالية عبر عدة أبعاد، بما في ذلك التوافق والجودة والأبعاد الجمالية والمعرفة والعدالة.

واحدة من الاستراتيجيات البارزة التي تم استكشافها هي إطار العمل MosAIG، الذي يستفيد من نماذج اللغات الضخمة (Large Language Models) مع شخصيات ثقافية متميزة، والتي تعزز عملية توليد الصور المتعددة الثقافات.

وتظهر تحليلاتنا أن تعزيز تكوين الطلبات يمكن أن يُحسّن جودة الصورة والأساس الثقافي مقارنةً بالطلبات البسيطة، مع الكشف عن اختلافات ملحوظة عبر اللغات والمجموعات السكانية. يمكنكم الاطلاع على مجموعتنا من البيانات وكود البرمجة على الرابط: https://github.com/AIM-SCU/MosAIG.