🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

اكتشف MaMe وMaRe: ثورة في دمج واستعادة التوكنات لتحسين الرؤية الحاسوبية!

تقدم تقنية MaMe وMaRe إنجازًا جديدًا في تسريع نماذج الرؤية الحاسوبية، مما يزيد من كفاءة أداء Vision Transformers. حيث تمكّن هذه التقنية من زيادة سرعة المعالجة بشكل كبير مع الحفاظ على دقة عالية.

في قلب عالم الذكاء الاصطناعي، يمثل ضغط التوكنات (Token Compression) عنصرًا أساسيًا لتخفيف التعقيد الرباعي المرتبط بآليات الانتباه الذاتي في نماذج Transformers للرؤية (Vision Transformers). هذه النماذج حتى اليوم تحتاج إلى الكثير من المدخلات، مما يؤدي إلى استهلاك كبير لموارد الحساب. لكن، مع اختراع تقنيتي MaMe وMaRe، نشهد تحولاً جذريًا في الطريقة التي نتعامل بها مع التوكنات.

تقنية MaMe تعتمد بشكل كامل على العمليات المصفوفية (Matrix Operations) مما يجعلها صديقة لوحدات معالجة الرسوميات (GPU)، وبذلك تسهم في تسريع أداء نماذج الرؤية بشكل كبير. فيما يخص تقنية MaRe، فهي تعمل كعملية عكسية لتسهيل استعادة التوكنات، مما يشكل أنبوبًا متكاملاً للتوليد وتوليد الجودة العالية في الصور.

أظهرت النتائج أن استخدام MaMe مع النماذج المدربة مسبقًا يعزز أداء نموذج ViT-B، حيث تمكّن من مضاعفة الإنتاجية مع انخفاض دقة قدره 2%. ولكن، الأهم من ذلك، أن تخصيص الطبقة الأخيرة مع MaMe ساهم في زيادة الدقة بنسبة 1.0% وفي الوقت ذاته رفع سرعة المعالجة بمعدل 1.1 مرة.

في تصنيف SigLIP2-B@512 صفر-طلبي، حققت MaMe تسريعًا يصل إلى 1.3 مرة مع تدهور أثر قليل على الأداء. في مهام الفيديو، ساهمت MaMe في تسريع نموذج VideoMAE-L بنسبة 48.5% مع فقدان دقة طفيف قدره 0.84% فقط.

وعند الحديث عن تحسين جودة الصور، فإن خط أنابيب MaMe + MaRe يرفع من جودة التوليد أثناء تقليل زمن التوليد لنموذج Stable Diffusion v2.1 بنسبة تصل إلى 31%.

تظهر هذه الإنجازات أهمية MaMe وMaRe في تسريع نماذج الرؤية مع تحسين الأداء، مما يجعلها نقطة تحول محتملة في مجال الذكاء الاصطناعي. لمزيد من المعلومات، يمكنك زيارة [الرابط هنا](https://github.com/cominder/mame). ما رأيكم في هذا التطور المذهل؟ شاركونا في التعليقات!
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة