أعلنت مجموعة من الباحثين عن إطلاق OmniGen2، نموذج مفتوح المصدر مُصمم بشكل مبتكر لتوليد المحتوى المتعدد الأنماط (Multimodal Generation). يهدف هذا النموذج إلى توفير حل موحد لمهام متنوعة، تشمل تحويل النص إلى صورة (text-to-image)، وتحرير الصور (image editing)، والتوليد في السياق (in-context generation).
يختلف OmniGen2 عن النسخة السابقة، OmniGen v1، من حيث أنه يتضمن مسارين مختلفين لفك التشفير لكل من النصوص والصور، مما يسمح له بالاستفادة من معلمات غير مشتركة ومحدد صورة منفصل. يتيح هذا التصميم لـ OmniGen2 بناءً على نماذج الفهم المتعدد الأنماط الموجودة دون الحاجة إلى إعادة تعديل مدخلات VAE.
من أجل دعم تدريب نموذج OmniGen2، تم تطوير خطوط أنابيب شاملة لبناء البيانات تشمل تحرير الصور والتوليد في السياق. كما تم إدخال آلية انعكاسية جديدة متخصصة لمهام توليد الصور، إلى جانب تصميم مجموعة بيانات مخصصة تعتمد على OmniGen2.
رغم حجم المعلمات المتواضع نسبيًا، يحقق OmniGen2 نتائج تنافسية على عدة مؤشرات أداء تشمل تحويل النص إلى صورة وتحرير الصور. ولتقييم التوليد في السياق، تم تقديم معيار جديد يُسمى OmniContext، حيث يحقق OmniGen2 أداءً رائدًا بين النماذج المفتوحة المصدر من حيث الاتساق.
يُتوقع أن يتم إصدار النماذج، وكود التدريب، ومجموعات البيانات، وخطوط أنابيب بناء البيانات لدعم الأبحاث المستقبلية في هذا المجال. للمزيد من التفاصيل، يمكن زيارة صفحة المشروع [هنا](https://vectorspacelab.github.io/OmniGen2) أو الاطلاع على كود النموذج على [GitHub](https://github.com/VectorSpaceLab/OmniGen2).
هل أنتم متحمسون لرؤية كيف سيتطور هذا النموذج في المستقبل؟ شاركونا آراءكم في التعليقات!
OmniGen2: ثورة جديدة في توليد المحتوى المتعدد الأنماط
يقدم مشروع OmniGen2 نموذجًا مفتوح المصدر لتوليد المحتوى يجمع بين النص والصورة بأسلوب مبتكر. هذا النموذج يتجاوز التحديات السابقة ويحقق نتائج متقدمة في مهام تحرير الصور وتوليد النصوص.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
