في السنوات الأخيرة، أصبحت النماذج اللغوية الكبيرة (LLMs) تعتمد بشكل متزايد على بنية Mixture-of-Experts (MoE) لزيادة سعة النموذج دون زيادة تكاليف الحساب بشكل متناسب. هذه التقنية تسمح بتحسين جودة المخرجات مع تقليل التكاليف. ومع ذلك، تواجه نماذج MoE تحديات كبيرة أثناء تنفيذها على نطاق واسع، إذ تتعلق هذه التحديات بعدم التوازن في تحميل الخبراء وعدم كفاءة توجيه الرموز، خاصةً في البيئات التي تتضمن عدة عقد.
**تحديات التنفيذ**
يتطلب تنفيذ نماذج MoE على نطاق واسع تكاليف التواصل بين العقد، مما يؤثر بشكل كبير على الأداء. لقد قام الباحثون، من خلال دراستهم، بتشخيص العديد من هذه التحديات عبر تحليل نماذج MoE الحديثة مثل Llama 4 Maverick و DeepSeek V3-671B و Qwen3-230B-A22B، حيث جمعوا أكثر من 100,000 أثر حقيقي لاستدعاء الخبراء.
**النتائج الرئيسية**
أظهرت التحليلات أن هناك خصائص مستمرة في أنماط استدعاء الخبراء عبر جميع النماذج، مثل:
- عدم توازن تحميل الخبراء.
- اختلاف شهرة الخبراء وفقاً لنوع المهام (التشفير، الرياضيات، الدردشة، العام).
- ارتباط قوي بين استدعاءات الخبراء في مرحلة الإعداد والفك.
استنادًا إلى هذه النتائج، تم اقتراح استراتيجيات جديدة للجمع بين دفعات العمل واستراتيجيات وضع الخبراء، مما يعزز من التقارب المكاني للرموز مع الخبراء المستهدفين، وبالتالي تقليل التواصل بين العقد.
**التحسينات الملحوظة**
أسفرت هذه التحسينات عن تقليل تكاليف التواصل بين العقد بنسبة تصل إلى 20%، مما يسهم في تقليل وقت استدعاء MoE وزيادة كفاءة استخدام المعالجات.
هل تعتقد أن هذه الاستراتيجيات ستحدث ثورة في استخدام الذكاء الاصطناعي في المستقبل؟
