في عالم التطبيقات الذكية التي تعتمد على الزمن الحقيقي، تعد القدرة على تقدير زمن استدلال النماذج بدقة أمراً في غاية الأهمية، حيث تتيح الأجهزة حساب هوامش الزمن بناءً على المواعيد النهائية وتبادلها لتحسين أداء النموذج أو توفير الموارد. لكن، مع انتشار تقنية تغيير الجهد والتردد الديناميكي (Dynamic Voltage and Frequency Scaling - DVFS)، أصبحت الطرق التقليدية للتحليل الثابت غير فعّالة.
هذا التغير الحراري، والذي يتسبب في تقلب زمن الاستدلال وفقاً لترددات المعالجات (CPU وGPU)، يمثل تحدياً حقيقياً. بينما قد يبدو أنه يمكن تحليل جميع الترددات عبر تجارب مكثفة، إلا أن ذلك سيكون مكلفاً للغاية، خاصة بالنسبة للنماذج اللغوية الصغيرة (Small Language Models - SLMs)، حيث يمكن أن يؤدي طول سياق المتغير إلى زيادة وقت التحليل إلى أيام عدة.
لقد تم التعرف على أن النماذج البسيطة التي تعتمد على التحليل الرياضي لا تستطيع توقع هذه التقلبات بالطريقة الصحيحة بسبب التداخل المعقد بين تزامن CPU، الذي يبدأ النواة، وGPU الذي يقوم بالتنفيذ. هنا يأتي دور FLAME، النموذج الذي يقدم تقديراً دقيقاً لزمن الاستدلال عبر ترددات مختلفة.
تتضمن آلية FLAME ابتكاراً في نمذجة الطبقات، حيث يمكنها قياس التداخل الموازي وتجميع الفقاعات الديناميكية الناتجة عن التفاعلات بين المعالجات المتزامنة عند التمديد للنموذج الكامل. يضمن هذا النهج الشامل عمومية النتائج عبر مختلف النماذج، من الشبكات العصبية العميقة (Deep Neural Networks - DNNs) إلى النماذج اللغوية الصغيرة.
بفضل FLAME، يمكن تقليص زمن التحليل للنماذج من ساعات إلى دقائق، مع الحفاظ على دقة عالية في التقديرات عبر الترددات. كما تم عرض فعالية FLAME في سياقات تعتمد على المواعيد النهائية لتغيير الجهد والتردد الديناميكي، متفوقةً بذلك على الأساليب التقليدية من حيث كفاءة الطاقة وضمانات زمن الاستجابة.
استكشاف أفق جديد: دقة تقدير زمن الاستدلال على الهواتف الذكية باستخدام FLAME
تقديم FLAME، الأداة الثورية التي تعيد تعريف تقدير زمن استدلال النماذج اللغوية الصغيرة (SLMs) بين معالجات CPU وGPU. مع FLAME، يمكنك تقليص الوقت اللازم للاختبار من أيام إلى دقائق قليلة بفضل نهج مبتكر ودقيق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
