في عالم الذكاء الاصطناعي، تعد النماذج الضخمة متعددة الوسائط (Large Multimodal Models) من أحدث الابتكارات التي تتيح لنا دمج البيانات من مصادر متعددة مثل النصوص والصور والفيديوهات. لكن كيف يمكننا تعليم هذه النماذج مهارات جديدة دون أن نفقد ما تعلمته سابقًا؟

دراسة حديثة تناولت هذا التحدي، إذ اقترحت استراتيجية جديدة تعتمد على ما يسمى بالضبط المتسلسل (sequential fine-tuning) عبر مجموعة من المهارات المستهدفة. وقد تم اختبار الأداء في ثمانية مقاييس مستقلة، مما سهل تقييم القدرة العامة للنماذج بعد تطبيق عملية التعميم.

النتائج كانت مذهلة! تبين أن الأداء المفقود عند التركيز على مهارة جديدة يمكن أن يتعافى جزئيًا عندما يتم لاحقًا ضبط النموذج على مهارة مختلفة. هذا يشير إلى وجود تغييرات ملحوظة في توزيع النواتج، ويمكن قياس ذلك عبر أدوات بسيطة مثل اختبارات العد.

وفي إطار هذا البحث، حدد الباحثون طريقتين مبسّطتين لتقليل الانزياح أثناء التعلم: 1) تحديث فقط طبقات الإسقاط الذاتي (Self-Attention Projection Layers) و2) تحديث طبقات MLP Gate&Up مع تجميد الطبقات الأخرى. وقد أظهرت هذه الطرق نتائج ملحوظة من حيث الأداء مقارنةً بعمليات الضبط الكاملة، مما يجعلها أسهل وأسرع، دون الحاجة إلى إعادة التشغيل أو تقديم معلمات إضافية.

تشير النتائج إلى أن القدرة على تعليم النماذج متعددة الوسائط مهارات جديدة تعتمد بشكل كبير على التحكم في انزياح توزيع النواتج، وهو ما يمكن تحقيقه عبر اختيار المكونات المراد ضبطها بعناية.

هذه النتائج تتوافق مع نماذج مثل LLaVA-OneVision وLLaVA-NeXT وQwen2.5-VL، مما يبرز أهمية البحث المستمر في هذا المجال، وفتح آفاق جديدة لتعزيز القدرات الذكية الاصطناعية.