قفزة مذهلة في تسريع تدريب نماذج الرؤية: تقنية Chain-of-Models الجديدة
تقدم تقنية Chain-of-Models Pre-Training نهجاً مبتكراً لتسريع تدريب نماذج الرؤية دون فقدان الأداء. هذا الأسلوب يضمن كفاءة أعلى في التدريب مع تقليل التكاليف بشكل كبير.
في تطور مذهل في عالم الذكاء الاصطناعي، قدّم الباحثون تقنية جديدة تُعرف بـ Chain-of-Models Pre-Training (CoM-PT) التي تعد ثورة في تسريع التدريب لنماذج الرؤية الأساسية (Vision Foundation Models). تختلف هذه التقنية بشكل جذري عن الطرق التقليدية لتسريع التدريب، حيث تركز على تعزيز كفاءة مجموعة النماذج ككل بدلاً من العمل على تحسين كل نموذج على حدة.
تعمل CoM-PT من خلال إنشاء تسلسل مسبق للتدريب يُرتب وفقاً لحجم النماذج، مما ينتج عنه ما يُعرف بسلسلة النماذج. في هذه السلسلة، يتم تدريب النموذج الأصغر بشكل فردي، في حين تُستغل المعرفة المكتسبة من النماذج الأصغر لتسريع تدريب النماذج الأكبر. هذه الآلية لا تُتيح فقط تحقيق أداء أفضل من التدريب التقليدي، بل تؤدي أيضاً إلى تقليل كبير في تكاليف التدريب.
تظهر نتائج الدراسة التي شملت 45 مجموعة بيانات أن تقنية CoM-PT تُحقق كفاءة غير مسبوقة. فعلى سبيل المثال، عندما يتم التدريب على البيانات CC3M، يؤدي إضافة نماذج أصغر إلى سلسلة النماذج إلى تقليل التعقيد الحوسبي حتى 72%. كما أن النسبة التسارعية للتدريب تزداد بشكل ملحوظ مع زيادة عدد النماذج، حيث ارتفعت النسبة من 4.13X إلى 7.09X.
وبما أن CoM-PT لا تعتمد على أي نمط محدد من أنماط التدريب المسبق، تم نشر الشيفرة المصدرية لتشجيع تطويرات مستقبلية في سيناريوهات أكثر تعقيداً، مثل التدريب المسبق لنماذج اللغات الكبيرة (Large Language Models).
تعمل CoM-PT من خلال إنشاء تسلسل مسبق للتدريب يُرتب وفقاً لحجم النماذج، مما ينتج عنه ما يُعرف بسلسلة النماذج. في هذه السلسلة، يتم تدريب النموذج الأصغر بشكل فردي، في حين تُستغل المعرفة المكتسبة من النماذج الأصغر لتسريع تدريب النماذج الأكبر. هذه الآلية لا تُتيح فقط تحقيق أداء أفضل من التدريب التقليدي، بل تؤدي أيضاً إلى تقليل كبير في تكاليف التدريب.
تظهر نتائج الدراسة التي شملت 45 مجموعة بيانات أن تقنية CoM-PT تُحقق كفاءة غير مسبوقة. فعلى سبيل المثال، عندما يتم التدريب على البيانات CC3M، يؤدي إضافة نماذج أصغر إلى سلسلة النماذج إلى تقليل التعقيد الحوسبي حتى 72%. كما أن النسبة التسارعية للتدريب تزداد بشكل ملحوظ مع زيادة عدد النماذج، حيث ارتفعت النسبة من 4.13X إلى 7.09X.
وبما أن CoM-PT لا تعتمد على أي نمط محدد من أنماط التدريب المسبق، تم نشر الشيفرة المصدرية لتشجيع تطويرات مستقبلية في سيناريوهات أكثر تعقيداً، مثل التدريب المسبق لنماذج اللغات الكبيرة (Large Language Models).
📰 أخبار ذات صلة
🤖
أبحاث
GIST: ثورة في استخراج المعرفة متعددة الأنماط وتوجيه الأماكن باستخدام الذكاء الاصطناعي!
أركايف للذكاءمنذ 1 ساعة
🤖
أبحاث
ثورة في أنظمة التفاعل: عقود مراجعة المعتقدات المسجلة مسبقًا
أركايف للذكاءمنذ 1 ساعة
🤖
أبحاث
نقل سلوكات غير آمنة عبر التعلم الخفي: استكشاف أبعاد جديدة في الذكاء الاصطناعي
أركايف للذكاءمنذ 1 ساعة