يعتبر نموذج خلط الخبراء (Mixture-of-Experts - MoE) هو الأكثر انتشاراً في مجال النماذج اللغوية الكبيرة، حيث يجمع بين الكم الهائل من المتغيرات مع إمكانية حساب محدودة من خلال توجيه خبراء مختارين. يبدو أن هذه التقنية تمكن الخبراء من تحسين جودة النماذج مع الحفاظ على كفاءة الحساب، ولكن تدريب هذه النماذج الكبيرة يكلف الكثير بسبب المتطلبات العالية للذاكرة والتواصل بين الأجهزة.

لحل هذه المشكلة، قدم الباحثون تقنية جديدة تُعرف بـ 'إعادة استخدام الخبراء'، والتي تتيح توسيع قابلية نموذج MoE تدريجياً عبر زيادة عدد الخبراء أثناء فترة التدريب المستمر (CPT). بعد تدريب نموذج يحتوي على E خبيرًا، يعمل مشغل 'إعادة الاستخدام' على بناء نموذج جديد يحتوي على m خبير من خلال نسخ الخبراء الأصليين وتوسيع نظام التوجيه مع الحفاظ على تكلفة الاستدلال لكل توكن.

تُزيد هذه الطريقة من كفاءة النموذج، حيث توفر نقطة انطلاق أفضل من خلال وراثة التمثيلات التعلمية من نقطة التحقق الأصلية، مما يسمح للنموذج الجديد بالبدء من خسارة أقل بكثير مقارنة بالتدريب من الصفر. ومع استمرار التدريب، تكسر هذه الطريقة التناظر بين الخبراء المنسوخين لتعزيز تخصصهم.

أظهر البحث أن هذه التقنية فعالة بشكل مُلحوظ، حيث تحقق النموذج المعزز أداءً مماثلاً للنموذج الثابت على بيانات التحقق، مع توفير 32% من ساعات GPU المستهلكة. تُظهر التجارب الشاملة عبر مقاييس النماذج ونسب التفعيل وهياكل MoE وميزانيات التدريب وصفة عملية لنشر تقنية 'إعادة استخدام الخبراء'، مما يجعلها خياراً موثوقاً بكفاءة حسابية بديلة لتدريب نماذج MoE الكبيرة من البداية.

ما رأيكم في هذه الابتكارات الجديدة في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات!