سراب التكافؤ: الانحراف المنهجي في الاستدلال التلقائي باستخدام ذاكرة الحالة FP16

تشهد مجالات الذكاء الاصطناعي تطورات متسارعة، ولكننا نواجه أحياناً مشكلات تقنية معقدة تثير القلق. واحدة من هذه القضايا هو ما أظهرته دراسة جديدة تناولت الانحرافات الناتجة عن استخدام ذاكرة الحالة (KV caching) في نموذج الاستدلال التلقائي مع دقة FP16.

فقد افترض الباحثون لفترة طويلة أن التنفيذ باستخدام ذاكرة الحالة يعتبر مكافئاً لبدونها، لكن هذا الافتراض ثبت أنه غير صحيح مع الدقة القياسية FP16. حيث كشفت النتائج أن المسارات التنفيذية التي تستخدم الذاكرة تختلف في ترتيب التراكم العددي لنقاط الفاصلة، مما يؤدي إلى انحراف فعلي في تسلسل الرموز المُفككة.

تم اختبار ثلاثة نماذج مفتوحة الوزن هي: LLaMA-2-7B وMistral-7B-v0.3 وGemma-2-2B على مجموعة بيانات GSM8K، وكانت نسبة الانحراف في الرموز تصل إلى 100% عبر جميع استراتيجيات أخذ العينات، بما في ذلك التشفير الجشع، مما ينفي فكرة وجود عشوائية في أخذ العينات كسبب لذلك. وجد الباحثون أن استخدام الذاكرة كان يُفضي إلى دقة أعلى في 8 من 9 ظروف، مما يدل على أن انحراف النماذج ليس عشوائياً بل منهجياً.

أظهر تحليل الانحراف الطبقي أن الأنماط التراكمية القابلة للتوقع معماريًا تتواجد في المستخدمين لمبدأ Grouped-Query Attention، حيث يظهر الانحراف الحاد في الطبقة الأولى. بينما تُظهر Gemma، ذات الأبعاد الكبيرة والرؤية الانزلاقية، تراكمًا متجانسًا عبر جميع الطبقات. علاوة على ذلك، فإن إصلاح التنشيط لجميع تدفقات الفائض لم يُساعد في العودة إلى المسار الخالي من الذاكرة، مما يشير إلى أن السبب الجذري يكمن في ذاكرة الحالة التي تحتفظ بالبيانات.

توضح هذه النتائج أن الاستدلال من خلال ذاكرة KV باستخدام FP16 ليس مكافئاً لإعادة الحساب، مما يوفر إطارًا آليًا لفهم عدم الاستقرار العددي في أنظمة الاستدلال الحديثة للنماذج اللغوية الضخمة (LLMs).

سراب التكافؤ: الانحراف المنهجي في الاستدلال التلقائي باستخدام ذاكرة الحالة FP16

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!