أعلنت شركة NVIDIA عن إدخال نموذج CUDA Tile (CuTile) الذي يجسد قفزة جديدة في عالم تطوير أنوية معالجات الرسوميات (GPU) بتبسيط عملية البرمجة واستثمارها في الكفاءة العالية لمركزات النسيج (Tensor Core) ومسرعات ذاكرة النسيج (TMA).
في هذا المقال، نناقش التقييم المستقل الأول لــ CuTile عبر معماريات مختلفة أمام أساليب معروفة مثل cuBLAS وTriton وWMMA، على ثلاثة نماذج من GPUs الخاصة بشركة NVIDIA وهي: H100 NVL، B200، وRTX PRO 6000 Blackwell Server Edition.
الأداء الرائع في الذكاء الاصطناعي
خلال الاختبارات، قمنا بقياس الأداء باستخدام مجموعة من أحمال العمل الذكية، بما في ذلك العمليات المعقدة مثل GEMM، والانتباه متعدد الرأس، والاستدلال الشامل لنماذج اللغة الكبيرة (LLM) بالدقة BF16/FP16. أظهرت النتائج أن فعالية CuTile تعتمد بشكل كبير على نوع الحمل المعالج والمعمارية المستخدمة.
على سبيل المثال، في مركز البيانات Blackwell Series (B200)، استطاع CuTile تحقيق أداء مذهل يصل إلى 1007 TFLOP/s في عملية الانتباه المدمج، متفوقاً على FlashAttention-2 بمعدل 2.5 مرة، مع الحاجة إلى 60 سطرًا فقط من كود Python.
أما بالنسبة لعملية GEMM، فقد استطاع CuTile الوصول إلى 52-79% من أداء cuBLAS في 22 سطرًا من الكود، مما يجعله بديلاً عمليًا مقارنة بالكود المكتوب يدويًا. ومع ذلك، أظهر الأداء انخفاضًا بنحو 53% في throughput على RTX PRO 6000، مما يكشف عن فجوات كبيرة في التحسين بين المعماريات المختلفة.
مقارنة مع Triton
على النقيض من ذلك، استطاع Triton الحفاظ على أداء يتراوح بين 62-101% من أداء cuBLAS عبر جميع المنصات المختبرة، دون الحاجة لضبطات خاصة لكل معمارية، مما يُظهر قدرة أكبر في تحقيق توافقية عبر المنصات.
**في الختام،** يبدو أن CuTile يمثل بديلاً واعدًا ومبتكرًا في عالم الذكاء الاصطناعي، لكنه يتطلب تحسينات إضافية ليصبح بديلاً تامًا للمكتبات المتخصصة.
📊 **ما رأيك في إسهامات CUDA Tile في تطوير الذكاء الاصطناعي؟ هل تعتقد أنه سينجح في تحقيق انجازات أكبر في المستقبل؟**
