ثورة في تعزيز أداء نماذج اللغة الكبيرة: تقنية TRSP الجديدة!
كشف الباحثون عن تقنية جديدة تُدعى TRSP لتحسين أداء نماذج اللغة الكبيرة من خلال تقنيات تقليم متطورة. تتيح هذه التقنية تقليل عدد المعلمات مع الحفاظ على المعرفة والأداء العالي للنموذج.
تُواجه نماذج اللغات الكبيرة (Large Language Models) تحديات كبيرة بسبب عدد المعلمات الهائل التي تشملها، مما يُ hinder استخدامها الفعّال في التطبيقات المختلفة. لهذا السبب، أصبحت تقنيات التقليم الهيكلي (Structural Pruning) حلاً واعداً للمشكلات التي تعيق deployment هذه النماذج.
أحدثت تقنية TRSP - أو تقليم الهيكل القائم على التنظيم الثنائي (Two-Stage Regularization-Based Structured Pruning) - ثورة في هذا المجال. تعتمد هذه التقنية على تقليل عدد المعلمات غير الضرورية أثناء الحفاظ على المعرفة والأداء.
في المرحلة الأولى من التقليم، يتم ضرب مخرجات كل طبقة من محولات (Transformers) بوزن قابل للتعلم، حيث تتم عملية تعلم هذه الأوزان بشكلٍ متكرر عبر إضافة معيار الانحدار ℓ₁ كحد من تنظيم الخسارة. هذا يساهم في تحقيق تنظيم أولي فعّال.
أما في المرحلة الثانية، فتُطبق تنظيم إضافي على الفرق بين مخرجات و مدخلات الطبقات ذات الأوزان الأصغر، مما يعزز التحول المعرفي إلى الطبقات المحفوظة. هذه الاستراتيجية تميز TRSP حيث تحتفظ بمزيد من المعرفة مقارنة بأساليب التقليم التقليدية التي تعتمد على حذف المعلمات، والتي غالباً ما تُفضي إلى فقدان المعرفة وتطلب إعادة تدريب مكثفة.
أثبتت التجارب العديدة تفوق TRSP على طرق التقليم الهيكلي القوي للطبقات، من دون الحاجة إلى إعادة التدريب، مما يمنحها قدرة تسريع ملحوظة من البداية إلى النهاية. كونها طريقة تقليم على مستوى الطبقة، فإنها تمثل حلاً واعدًا لتنفيذ نماذج اللغة الكبيرة بكفاءة عالية.
أحدثت تقنية TRSP - أو تقليم الهيكل القائم على التنظيم الثنائي (Two-Stage Regularization-Based Structured Pruning) - ثورة في هذا المجال. تعتمد هذه التقنية على تقليل عدد المعلمات غير الضرورية أثناء الحفاظ على المعرفة والأداء.
في المرحلة الأولى من التقليم، يتم ضرب مخرجات كل طبقة من محولات (Transformers) بوزن قابل للتعلم، حيث تتم عملية تعلم هذه الأوزان بشكلٍ متكرر عبر إضافة معيار الانحدار ℓ₁ كحد من تنظيم الخسارة. هذا يساهم في تحقيق تنظيم أولي فعّال.
أما في المرحلة الثانية، فتُطبق تنظيم إضافي على الفرق بين مخرجات و مدخلات الطبقات ذات الأوزان الأصغر، مما يعزز التحول المعرفي إلى الطبقات المحفوظة. هذه الاستراتيجية تميز TRSP حيث تحتفظ بمزيد من المعرفة مقارنة بأساليب التقليم التقليدية التي تعتمد على حذف المعلمات، والتي غالباً ما تُفضي إلى فقدان المعرفة وتطلب إعادة تدريب مكثفة.
أثبتت التجارب العديدة تفوق TRSP على طرق التقليم الهيكلي القوي للطبقات، من دون الحاجة إلى إعادة التدريب، مما يمنحها قدرة تسريع ملحوظة من البداية إلى النهاية. كونها طريقة تقليم على مستوى الطبقة، فإنها تمثل حلاً واعدًا لتنفيذ نماذج اللغة الكبيرة بكفاءة عالية.
📰 أخبار ذات صلة

نماذج لغوية
كن مع الذكاء الاصطناعي: كل ما تحتاج معرفته عن التحديث الكبير لـ Claude Opus 4.7!
مارك تيك بوستمنذ 1 يوم
🤖
نماذج لغوية
ابتكار ثوري: كيفية تحسين أداء نماذج اللغة الكبيرة باستخدام KV Packet
أركايف للذكاءمنذ 2 يوم
🤖
نماذج لغوية
ثورة في تحسين نماذج اللغة: التدريب الذاتي التوقعي بين الأقران
أركايف للذكاءمنذ 2 يوم