# ثورة جديدة في نماذج اللغة: مجموعة خبراء متجانسين لتحقيق أداء مذهل!

في عالم الذكاء الاصطناعي، تعد نماذج اللغة الكبيرة (Large Language Models) أحد أبرز التطورات، وأكثرها فعالية في التطبيقات الصناعية. ومن أحدث الابتكارات في هذا المجال، تأتي دراسة جديدة تركز على **مجموعة خبراء متجانسين (Mixture of Heterogeneous Grouped Experts)**، والتي تعد بمثابة خطوة هائلة نحو تحسين الأداء وتقليل التكلفة.

التحديات التي تواجه نماذج خبراء متنوعة



من المعروف أن نماذج الخبراء المتنوعة (Mixture-of-Experts) تعاني من مشكلات عديدة، ولا سيما عدم توافق أحجام الخبراء مع التعقيدات المختلفة لمهام معالجة اللغة. على الرغم من أن هذه النماذج تحاول تنويع أحجام الخبراء، إلا أنها تواجه تحديات على مستوى النظام، مثل استخدام غير متوازن لوحدات معالجة الرسومات (GPU) وعدم كفاءة في استخدام المعلمات.

الحل الأمثل مع مجموعة خبراء متجانسين



تقدم الدراسة مفهوم **مجموعة خبراء متجانسين** والذي يعتمد على آلية توجيه ذات مستويين (two-level routing mechanism) لتمكين تشكيلات مرنة من الخبراء تتلاءم مع الموارد المتاحة. من خلال تقديم **خسارة إضافية قائمة على المجموعة (Group-Wise Auxiliary Loss)**، يتم توجيه المهام إلى أكثر مجموعات الخبراء كفاءة وفقًا لصعوبة المهمة.

كما تم اعتماد استراتيجية **فصل توزيع المجموعات جميع الأحجام (All-size Group-decoupling Allocation)** مع خسارة إضافية داخل المجموعة (Intra-Group Experts Auxiliary Loss) لمعالجة تحديات التوازن في تحميل وحدات معالجة الرسومات.

الأداء والكفاءة



مؤخراً، أثبتت التقييمات الشاملة أن مجموعة خبراء متجانسين تحقق نفس الأداء الذي تحققه النماذج التقليدية، لكن مع تقليل إجمالي عدد المعلمات بنسبة تصل إلى 20%، مع الاحتفاظ بتوازن استخدام وحدات معالجة الرسومات.

تجمع هذه الابتكارات بين الفعالية والمرونة لتقديم حل عملي لمشاكل التكلفة في الاستدلال في سيناريوهات العالم الحقيقي.

**فهل أنت مستعد لاكتشاف كيف يفتح هذا البحث الباب أمام آفاق جديدة في الذكاء الاصطناعي؟**