تشهد مجالات الذكاء الاصطناعي تطورات متسارعة، ولكننا نواجه أحياناً مشكلات تقنية معقدة تثير القلق. واحدة من هذه القضايا هو ما أظهرته دراسة جديدة تناولت الانحرافات الناتجة عن استخدام ذاكرة الحالة (KV caching) في نموذج الاستدلال التلقائي مع دقة FP16.
فقد افترض الباحثون لفترة طويلة أن التنفيذ باستخدام ذاكرة الحالة يعتبر مكافئاً لبدونها، لكن هذا الافتراض ثبت أنه غير صحيح مع الدقة القياسية FP16. حيث كشفت النتائج أن المسارات التنفيذية التي تستخدم الذاكرة تختلف في ترتيب التراكم العددي لنقاط الفاصلة، مما يؤدي إلى انحراف فعلي في تسلسل الرموز المُفككة.
تم اختبار ثلاثة نماذج مفتوحة الوزن هي: LLaMA-2-7B وMistral-7B-v0.3 وGemma-2-2B على مجموعة بيانات GSM8K، وكانت نسبة الانحراف في الرموز تصل إلى 100% عبر جميع استراتيجيات أخذ العينات، بما في ذلك التشفير الجشع، مما ينفي فكرة وجود عشوائية في أخذ العينات كسبب لذلك. وجد الباحثون أن استخدام الذاكرة كان يُفضي إلى دقة أعلى في 8 من 9 ظروف، مما يدل على أن انحراف النماذج ليس عشوائياً بل منهجياً.
أظهر تحليل الانحراف الطبقي أن الأنماط التراكمية القابلة للتوقع معماريًا تتواجد في المستخدمين لمبدأ Grouped-Query Attention، حيث يظهر الانحراف الحاد في الطبقة الأولى. بينما تُظهر Gemma، ذات الأبعاد الكبيرة والرؤية الانزلاقية، تراكمًا متجانسًا عبر جميع الطبقات. علاوة على ذلك، فإن إصلاح التنشيط لجميع تدفقات الفائض لم يُساعد في العودة إلى المسار الخالي من الذاكرة، مما يشير إلى أن السبب الجذري يكمن في ذاكرة الحالة التي تحتفظ بالبيانات.
توضح هذه النتائج أن الاستدلال من خلال ذاكرة KV باستخدام FP16 ليس مكافئاً لإعادة الحساب، مما يوفر إطارًا آليًا لفهم عدم الاستقرار العددي في أنظمة الاستدلال الحديثة للنماذج اللغوية الضخمة (LLMs).
سراب التكافؤ: الانحراف المنهجي في الاستدلال التلقائي باستخدام ذاكرة الحالة FP16
تسلط دراسة حديثة الضوء على مشكلة الانحراف العددي في نماذج الاستدلال التلقائي، حيث يكشف البحث أن تخزين البيانات باستخدام FP16 ليس مكافئاً للتخزين بدون ذاكرة. النتائج تشير إلى أن هذه الانحرافات تؤثر على دقة النماذج بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
