في عصر الذكاء الاصطناعي الحديث، لا تقتصر التطورات على نماذج لغات الذكاء الاصطناعي فحسب، بل تشمل أيضًا إنجازات مذهلة في مجال توليد الصور. تمثل الأبحاث الأخيرة خطوة كبيرة في هذا الاتجاه، حيث أظهرت أن نماذج توليد الصور مثل Vision Banana تُظهر سلوكيات تفهم بصريًا غير مسبوقة، مماثلة لما طورته نماذج اللغات الكبيرة (Large Language Models) من قدرات في فهم اللغة والتفكير.

لقد تم استنتاج منذ وقت طويل أن القدرة على إنشاء محتوى بصري تشير إلى قدرة على فهمه، لكن الأدلة التي تدعم هذا الادعاء كانت محدودة. في هذا السياق، يُظهر البحث الجديد كيف أن تدريب نماذج توليد الصور يشبه إلى حد كبير عملية ما قبل تدريب نماذج اللغات الكبيرة، مما يساعد على تطوير تمثيلات بصرية قوية وعامة تجعل هذه النماذج تتمتع بأداء فائق في مهام متعددة.

يُقدّم الباحثون نموذج Vision Banana، الذي يعد نموذجًا عامًا تم تدريبه بشكل دقيق باستخدام تقنية المقامرة موجودة في نموذج Nano Banana Pro (NBP) مع مجموعة متنوعة من بيانات المهمات البصرية. من خلال تحسين فضاء المخرجات لمهام الرؤية على هيئة صور RGB، تم إعادة تشكيل إدراك النموذج ليصبح توليدًا للصور.

إن نموذج Vision Banana يحقق نتائج مذهلة في مجموعة متنوعة من المهام البصرية التي تتطلب فهمًا ثنائي وثلاثي الأبعاد، ويتفوق أو ينافس نماذج متخصصة في مجالات معينة، مثل نموذج Segment Anything Model 3 في مهام التقطيع، وسلسلة Depth Anything في تقدير العمق.

توضح النتائج أن التحسين بالتعليمات الخفيفة يمكن أن يتحقق دون المساس بقدرات النموذج الأساسية في توليد الصور. هذه النتائج الكبيرة تشير إلى أن عملية ما قبل تدريب توليد الصور تُعتبر متعلمًا عامًا للرؤية. كما تظهر أن توليد الصور يُمثل واجهة موحدة وعمومية لمهام الرؤية، مشابهة للدور الذي تلعبه توليد النصوص في فهم اللغة والتفكير.

قد نكون على أعتاب تحول كبير في رؤية الكمبيوتر، حيث يلعب تدريب توليد الرؤية دورًا مركزيًا في بناء نماذج الرؤية الأساسية لكل من التوليد والفهم.