عندما تلتقي الثقافات: ابتكار الصور من النصوص بطريقة متعددة الثقافات
تستكشف خوارزميات توليد الصور من النصوص قدرتها على تمثيل المشاهد متعددة الثقافات، مع تجارب جديدة عبر خمسة بلدان. يكشف هذا الدراسة عن نماذج مبتكرة لتعزيز الإبداع الثقافي في الأعمال الفنية الرقمية.
في عالم يزداد ترابطاً عبر الثقافات، تظهر أهمية تحقيق التوازن بين جميع الأطياف الثقافية في الفنون التكنولوجية. لقد حققت نماذج توليد الصور من النصوص (Text-to-Image Generation Models) أداءً رائعًا في سياقات ذات ثقافات متجانسة، ولكن كانت قدرتها على إنشاء مشاهد ثقافية متباينة لم تُستكشف بشكل كافٍ حتى الآن. في هذا الإطار، نقدم مفهوم توليد الصور من النصوص متعددة الثقافات كوظيفة جديدة، ونطرح أول مقياس مصمم لدراسة هذه الحالة.
يحتوي مجموع البيانات الذي أعددناه على 9000 صورة تغطي خمسة بلدان، وثلاث فئات عمرية، وجنسين، وخمسة وعشرون معلمًا تاريخيًا، وخمس لغات، مما يفتح المجال أمام تحليل سلوك نماذج توليد الصور الحالية عبر عدة أبعاد، بما في ذلك التوافق والجودة والأبعاد الجمالية والمعرفة والعدالة.
واحدة من الاستراتيجيات البارزة التي تم استكشافها هي إطار العمل MosAIG، الذي يستفيد من نماذج اللغات الضخمة (Large Language Models) مع شخصيات ثقافية متميزة، والتي تعزز عملية توليد الصور المتعددة الثقافات.
وتظهر تحليلاتنا أن تعزيز تكوين الطلبات يمكن أن يُحسّن جودة الصورة والأساس الثقافي مقارنةً بالطلبات البسيطة، مع الكشف عن اختلافات ملحوظة عبر اللغات والمجموعات السكانية. يمكنكم الاطلاع على مجموعتنا من البيانات وكود البرمجة على الرابط: https://github.com/AIM-SCU/MosAIG.
يحتوي مجموع البيانات الذي أعددناه على 9000 صورة تغطي خمسة بلدان، وثلاث فئات عمرية، وجنسين، وخمسة وعشرون معلمًا تاريخيًا، وخمس لغات، مما يفتح المجال أمام تحليل سلوك نماذج توليد الصور الحالية عبر عدة أبعاد، بما في ذلك التوافق والجودة والأبعاد الجمالية والمعرفة والعدالة.
واحدة من الاستراتيجيات البارزة التي تم استكشافها هي إطار العمل MosAIG، الذي يستفيد من نماذج اللغات الضخمة (Large Language Models) مع شخصيات ثقافية متميزة، والتي تعزز عملية توليد الصور المتعددة الثقافات.
وتظهر تحليلاتنا أن تعزيز تكوين الطلبات يمكن أن يُحسّن جودة الصورة والأساس الثقافي مقارنةً بالطلبات البسيطة، مع الكشف عن اختلافات ملحوظة عبر اللغات والمجموعات السكانية. يمكنكم الاطلاع على مجموعتنا من البيانات وكود البرمجة على الرابط: https://github.com/AIM-SCU/MosAIG.
📰 أخبار ذات صلة
أبحاث
استكشاف مشكلة تسلسل العناصر المشترك الأطول: ثغرات متعددة ومتغيرات معقدة
أركايف للذكاءمنذ 6 ساعة
أبحاث
ARES: نظام مبتكر لتعزيز أمان نماذج اللغة من خلال التكيف والمواجهة ذات الهدف المزدوج
أركايف للذكاءمنذ 6 ساعة
أبحاث
كيف تؤدي نماذج الذكاء الاصطناعي الأبحاث العلمية دون تفكير عميق؟
أركايف للذكاءمنذ 6 ساعة