إن نشر نماذج اللغات الكبيرة (Large Language Models) على الهواتف الذكية يمثل تحدياً هندسياً كبيراً بسبب القيود الصارمة المرتبطة بالذاكرة والزمن المرن والأداء. في هذا السياق، قدم فريق من الباحثين إطار عمل يركز على الأجهزة لتسهيل عملية الاستدلال على جهاز محمول باستخدام نموذج LLaMA متعدد اللغات، حيث تم اختبار هذا النموذج على أجهزة سامسونج جالاكسي S24 وS25 المزودة بشريحتين Qualcomm SM8650 وSM8750.

تعتمد هذه الاستراتيجية على إدماج تطبيقات محددة ضمن إعدادات التشغيل، مما يسمح بتبديل المهام ديناميكياً دون الحاجة إلى إعادة تجميع أو زيادة في استخدام الذاكرة. علاوة على ذلك، تم تقديم آلية جديدة للتشفير المتعدد التي تولد تنوعات أسلوبية في الردود، مثل الرسمية أو المهذبة، ضمن خط واحد من التنبؤ، مما يقلل زمن الانتظار بمعدل يصل إلى 6 مرات.

لزيادة سرعة توليد التوكنات، تم تطبيق تقنية Dynamic Self-Speculative Decoding (DS2D)، وهي استراتيجية قائمة على الشجر للتنبؤ بالتوكنات المستقبلية دون الحاجة لنموذج مسودة، مما حقق سرعة تصل إلى 2.3 مرة في زمن التشفير. وبالاقتران مع تقنيات الكمّ المطبقة على INT4 وتحسينات على مستوى المعمارية، حقق النظام تحسناً يتراوح بين 4-6 مرات في الذاكرة والزمن مع الحفاظ على دقة الأداء عبر 9 لغات و8 مهام.

تعكس هذه النتائج الجدوى العملية لنشر نماذج اللغات الكبيرة في الأجهزة الطرفية، مما يعزز إمكانية الذكاء الاصطناعي التوليدي في المنصات المحمولة.