في عالم الذكاء الاصطناعي المتقدم، تأتي نماذج الأسس متعددة الوسائط (Multimodal Foundation Models) كعنوان بارز نحو تحسين القدرة على معالجة المعلومات بطرق ديناميكية وفعالة. لذا، تقدم الدراسة الحديثة منهجية متعددة الطبقات تهدف إلى تسريع هذه النماذج بشكل مثير للإعجاب.

تجمع هذه المنهجية بين تصميم الهاردوير (Hardware) والبرمجيات (Software) لكتل المحولات (Transformer Blocks) عبر تبني مسار تحسين يهدف إلى تقليل المتطلبات الحاسوبية والذاكرة. ومن خلال تطوير النموذج، يتم تحسين الأداء باستخدام طرق التخصيص (Fine-Tuning) المناسبة لمجالات محددة.

تشتمل المنهجية على تقنيات مبتكرة مثل ضغط نماذج الأسس متعددة الوسائط من خلال استخدام تقنيات الكوانتيزشن الدقيقة (Mixed-Precision Quantization) والتقليم الهيكلي (Structural Pruning) لكتل المحولات وقنوات الشبكات متعددة الطبقات (MLP). تم تحسين العمليات عبر فك تشفير تقديري (Speculative Decoding) والسلسلة النموذجية (Model Cascading) التي تقوم بتوجيه الاستفسارات عبر شجرة من النماذج الصغيرة إلى الكبيرة، بالإضافة إلى اختبارات ذاتية خفيفة لتحديد متى يجب الانتقال إلى نماذج أكبر.

لضمان كفاءة تنفيذ النموذج، يتم تحسين تدفق البيانات بناءً على بنية الهاردوير التحتية مع الانتباه إلى الكفاءة الذاكرية لتلبية متطلبات عرض النطاق الترددي وزمن التأخير. ولتعزيز ذلك، يتم استخدام مسرع هاردوير متخصص لأحمال العمل المتعلقة بالمحول، يمكن تطويره من خلال التصميم المتخصص أو باستخدام تقنيات نماذج اللغة الكبيرة (LLM-Aided Design).

تُظهر الدراسة فعالية منهجيتها الجديدة على نماذج الأسس متعددة الوسائط في المجالات الطبية وعمليات توليد الشيفرة. وتختتم بتطلعات نحو نماذج الأسس متعددة الوسائط الشبيهة بالتنبيه (Spiking-MFMs) ذات الكفاءة الطاقية، مما يعد بآفاق مثيرة في عالم الأبحاث.