تحسين أداء المحولات البصرية: تقنيات جديدة لتسريع معالجة البيانات

في عالم الذكاء الاصطناعي، تُعتبر محولات الرؤية (Vision Transformers) من الأدوات الرائدة في معالجة الصور وفهمها. وقد أثبتت طرق تقليم الرموز (Token Pruning) القدرة على تحقيق تقليص كبير في الأداء من خلال إزالة البيانات غير المهمة مما يساعد على تقليل FLOPs لأداء أفضل. لكن التحدي يكمن في كيفية تنفيذ هذه الأساليب باستخدام واجهات التنفيذ المتغيرة الطول، مثل FlashAttention-2 ونماذج PyTorch المُدمجة.

الدراسات الأخيرة كشفت عن عنق زجاجة ناشئ من تأثيرات الإرجاع الزمني في معالجة بيانات قصيرة الانتشار، مما يتسبب في تأخير غير مرغوب فيه. فبينما تُكمل العمليات الحسابية للصفوف المنقحة في ميكروثوانٍ، يستهلك مسار الإرجاع من 60 إلى 90 ميكروثانية.

لذا، قدم الباحثون نظام انتباه جديد بتقنية Triton ثنائية الاتجاه، يتميز بتقليل الإرجاع الزمني إلى 40 ميكروثانية، أي أقل بـ 1.5x من FlashAttention-2، مما يجعل فوائد التقليم أكثر وضوحًا في زمن المعالجة. تم دمج هذا النظام الجديد في عملية شاملة تعزز من الأداء إلى 2.24x مقارنةً بنماذج PyTorch التقليدية، متفوقًا في التحليل على مجموعة من خوارزميات التقليم المختلفة، وفي الوقت نفسه يحافظ على دقة التصنيفات بفارق ضئيل لا يتجاوز 0.007.

بفضل هذه الابتكارات، يمكن لمحولات الرؤية أن تعمل بكفاءة أعلى، مما يمهد الطريق لتطبيقات أكثر تعقيدًا ودقة أكبر في المجال. هل أنتم متحمسون لهذه التحسينات؟ شاركونا آرائكم!

تحسين أداء المحولات البصرية: تقنيات جديدة لتسريع معالجة البيانات

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!