قفزة مذهلة في كفاءة الأجهزة: تقنيات جديدة للكمّ الكبير في نماذج اللغة!

تُعد عملية الكمّ بحجم 4 بت (4-bit quantization) ضرورة أساسية لنشر نماذج اللغة الكبيرة (Large Language Models) بكفاءة عالية. ومع ذلك، غالبًا ما تؤدي القيم الشاذة (Activation Outliers) إلى تدهور كبير في الدقة بسبب النطاق الديناميكي المحدود للصيغ ذات البتات القليلة. في بحثنا، قمنا بتحليل منهجي لتوزيع القيم الشاذة في الفضاء، وأثبتنا وجود تأثير عنقودي هيكلي مستدام، حيث تحتل القيم ذات المقدار العالي قنوات ثابتة عبر الرموز (Tokens).

استنادًا إلى هذه الرؤية، نقدم تقنية OSC كإطار عمل فعال من حيث الأجهزة لعملية كبح القيم الشاذة. أثناء عملية الاستدلال، تنفذ OSC حسابًا عبر مسارين؛ أحدهما بدقة منخفضة بمقدار 4 بت (4-bit General Matrix Multiplication - GEMM) والآخر بدقة عالية تبلغ 16 بت. تستخدم OSC استراتيجية جماعية لتحديد القنوات التي تحتوي على القيم الشاذة، ثم تقوم باستخراج ألياف فرعية منظمة لتجمع هذه القنوات المبعثرة في ألياف كثيفة وموحدة في الوقت الفعلي.

تقوم هذه الآلية بحماية القيم الشاذة من خلال عمليات GEMM منتظمة وعالية الكفاءة، مما يحقق توافقًا سلسًا مع الأجهزة الحديثة التي تدعم تقليل الأبعاد إلى 4 بت. بالإضافة إلى ذلك، لعينة W2، حيث يكون تجمع القيم الشاذة أقل وضوحًا، قمنا بإدماج استراتيجية لتحويل البيانات (Fallback Strategy) إلى الدقة العالية 8 بت (FP8).

تظهر التقييمات على نماذج Qwen3-8B وQwen3-30B أن التدهور في الدقة لا يتجاوز 2.19 و1.12 نقطة على التوالي. من الجدير بالذكر أن تقنية OSC صديقة جدًا للأجهزة، حيث تحقق زيادة سرعة تصل إلى 1.78 مرة مقارنةً بمعيار GEMM 8 بت على معالجات الذكاء الاصطناعي الحديثة. فهل تعتقد أن هذه التقنيات ستشكل ثورة في عالم الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!

قفزة مذهلة في كفاءة الأجهزة: تقنيات جديدة للكمّ الكبير في نماذج اللغة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!