ثورة في تعزيز أداء نماذج اللغة الكبيرة: تقنية TRSP الجديدة!

تُواجه نماذج اللغات الكبيرة (Large Language Models) تحديات كبيرة بسبب عدد المعلمات الهائل التي تشملها، مما يُ hinder استخدامها الفعّال في التطبيقات المختلفة. لهذا السبب، أصبحت تقنيات التقليم الهيكلي (Structural Pruning) حلاً واعداً للمشكلات التي تعيق deployment هذه النماذج.

أحدثت تقنية TRSP - أو تقليم الهيكل القائم على التنظيم الثنائي (Two-Stage Regularization-Based Structured Pruning) - ثورة في هذا المجال. تعتمد هذه التقنية على تقليل عدد المعلمات غير الضرورية أثناء الحفاظ على المعرفة والأداء.

في المرحلة الأولى من التقليم، يتم ضرب مخرجات كل طبقة من محولات (Transformers) بوزن قابل للتعلم، حيث تتم عملية تعلم هذه الأوزان بشكلٍ متكرر عبر إضافة معيار الانحدار ℓ₁ كحد من تنظيم الخسارة. هذا يساهم في تحقيق تنظيم أولي فعّال.

أما في المرحلة الثانية، فتُطبق تنظيم إضافي على الفرق بين مخرجات و مدخلات الطبقات ذات الأوزان الأصغر، مما يعزز التحول المعرفي إلى الطبقات المحفوظة. هذه الاستراتيجية تميز TRSP حيث تحتفظ بمزيد من المعرفة مقارنة بأساليب التقليم التقليدية التي تعتمد على حذف المعلمات، والتي غالباً ما تُفضي إلى فقدان المعرفة وتطلب إعادة تدريب مكثفة.

أثبتت التجارب العديدة تفوق TRSP على طرق التقليم الهيكلي القوي للطبقات، من دون الحاجة إلى إعادة التدريب، مما يمنحها قدرة تسريع ملحوظة من البداية إلى النهاية. كونها طريقة تقليم على مستوى الطبقة، فإنها تمثل حلاً واعدًا لتنفيذ نماذج اللغة الكبيرة بكفاءة عالية.

ثورة في تعزيز أداء نماذج اللغة الكبيرة: تقنية TRSP الجديدة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في نمذجة المستخدمين: قفزة مذهلة نحو شخصيات مُبنية على أدلة من سجلات السلوك!

قفزة مذهلة في نمذجة العالم: ثورة جديدة في التخطيط والتحكم للوكالات الم embodiment

ثورة في نماذج اللغة: كيف تم بناء Granite 4.1!