تُعتبر نماذج اللغة الكبيرة (Large Language Models) من أبرز الابتكارات في مجال الذكاء الاصطناعي، لكنها تأتي بتكاليف مرتفعة من حيث الذاكرة والزمن. هنا يظهر لنا الإطار الجديد GRASPrune الذي يعد ثورة في كيفية إدارة هذه النماذج بشكل أكثر كفاءة.

يقدم GRASPrune تقنية تقليم (pruning) منظمة تُطبق بعد مرحلة التدريب المسبق، مخصصة لتحقيق أقصى استفادة من الموارد المتاحة عبر تقليم قنوات الشبكات العصبية (FFN channels) ومجموعات رؤوس الذاكرة (KV head groups) تحت ميزانية عالمية واحدة.

عوضًا عن تعلم درجات الأهمية دون قيود وتطبيق الميزانية في مرحلة لاحقة، يقوم GRASPrune بتعليم درجات بوابة خفيفة الوزن (lightweight gate scores) باستخدام مُقدِّر متصل مُعزز (projected straight-through estimator)، مما يضمن وجود قناع صارم يلتزم بتلك الميزانية في كل خطوة أثناء العمل، مع الحفاظ على ثوابت الوزن الأساسية في حالة ثابتة.

بعد تثبيت القناع، يتم ضبط عوامل القياس على الوحدات المحتفظ بها لتقليل التباين الناجم عن عملية التقليم، ومن ثم يتم دمج هذه العوامل في الأوزان المُقلمة للحصول على نقطة تحقق أقل حجمًا دون إضافة أي معلمات إضافية أثناء الاستدلال.

أثبتت التجارب على نموذج LLaMA-2-7B أن GRASPrune يحقق كفاءة ملحوظة، إذ يزيل 50% من المعلمات ويحقق دقة 12.18 على مؤشر WikiText-2، مع الحفاظ على أداء تنافسي في خمسة مقاييس متعددة، باستخدام فقط أربعة دورات تدريبية على 512 تسلسل غير مُعلم، وكل ذلك باستخدام معالج NVIDIA A100 بسعة 80GB، دون الحاجة إلى تنقيح كامل للنموذج.

باختصار، يجسد GRASPrune أسلوبًا مبتكرًا في تحسين كفاءة نماذج اللغة الكبيرة، ويضعنا أمام آفاق جديدة في مجال الذكاء الاصطناعي. فما رأيكم في هذه التقنية الجديدة؟ شاركونا آراءكم في التعليقات!