في عالم الذكاء الاصطناعي، تُعد عملية دمج النماذج (Model Merging) أداة أساسية تجمع بين حلول مستقلة ذات قدرات مختلفة ضمن نموذج واحد، مع الحفاظ على نفس تكلفة الاستدلال. ومع أن الطرق المتبعة مثل التداخل الخطي (Linear Interpolation) والأريثميكا الوظيفية (Task Arithmetic) قد أثبتت فائدتها، إلا أن فهم الخصائص التي تجعل الدمج فعالاً لا يزال قيد الدراسات.

تتناول دراسة جديدة نُشرت في arXiv كيف يمكن أن تؤثر ديناميات التحسين (Optimization Dynamics) على هندسة مشهد الخسارة (Loss Landscape) ونجاح الدمج. يتضح من نتائج البحث أن هناك كمية واحدة رئيسية تُعرف باسم "مقياس الضجيج الفعّال" (Effective Noise Scale) التي توحد تأثيرات مكونات المحسن المختلفة على دمج النماذج.

تشير النتائج إلى أن نجاح الدمج يعتمد بشكل غير خطي على مقياس الضجيج الفعّال، حيث توجد نقطة مثالية مميزة. وعند تحليل العناصر المؤثرة، وجد الباحثون أن معدلات التعلم الأعلى، وزيادة تآكل الوزن، والأحجام الصغيرة للدفعات، وتقنيات تعزيز البيانات كلها تؤثر بشكل مستقل على مقياس الضجيج الفعّال.

بخلاف الدراسات السابقة التي ربطت بين ضجيج المحسن ومستوى الاستواء أو تعميم المهمات في النماذج الفردية، توضح هذه الدراسة أن الضجيج يؤثر أيضًا على المشهد العالمي لخسارة النموذج (Global Loss Landscape)، مما يحدد الأوقات المناسبة لدمج الحلول المدربة بصورة مستقلة بنجاح.

هذا البحث يفتح آفاقًا جديدة لفهم كيفية تشكيل التحسين للهندسة الخاصة بمشهد الخسارة مما يمكن أن يسهم في تحسين استراتيجيات دمج النماذج مستقبلًا. هل تعتقد أن هذه النتائج يمكن أن تغير الطريقة التي يتم بها دمج النماذج؟ شاركونا آراءكم في التعليقات!