في عالم الذكاء الاصطناعي، تظل كفاءة الاستجابة لنماذج اللغة الكبيرة (Large Language Models) على الأجهزة المحمولة بمثابة تحدٍ كبير. غالبًا ما تصطدم هذه النماذج بقدرات الأجهزة المحدودة وبالتكاليف المرتفعة لمرحلة التحميل الأولية، والتي تتطلب معالجة السياق الكامل لتكوين تخزين المفاتيح والقيم (Key-Value caches).

لكن، لا داعي للقلق بعد الآن! فقد أُعلنت مؤخرًا عن SparKV، إطار عمل مبتكر لتحميل التخزين يتأقلم مع الاحتياجات المتنوعة. يجمع هذا النظام بين تدفق التخزين السحابي وحسابات الجهاز المحلي؛ حيث يقوم SparKV بتحليل تكلفة كل جزء من المعلومات (KV chunks) ويتخذ قرارًا بشأن ما إذا كان يجب تحميل هذه الأجزاء عبر السحابة أو معالجتها محليًا. وهذا يعني تقليل الزمن الضائع أثناء استجابة النموذج.

كما أن SparKV يتعامل بذكاء مع تقلبات الاتصال اللاسلكي وتوافر الموارد على الأجهزة الطرفية، حيث يتم تعديل الجدول الزمني للمعالجة في الوقت الفعلي لتحقيق توازن أفضل بين تكاليف الاتصال والحساب.

أظهرت التجارب عبر مجموعة متنوعة من قواعد البيانات ونماذج اللغة الكبيرة والأجهزة الطرفية أن SparKV يقلل من زمن الاستجابة (Time-to-First-Token) بنسبة تتراوح بين 1.3x إلى 5.1x مع تأثير ضئيل على جودة الاستجابة. وليس هذا فحسب، بل يحقق أيضًا تقليلًا في استهلاك الطاقة لكل طلب بنسبة تتراوح بين 1.5x إلى 3.3x، مما يبرز قوة واقعية هذا النظام لتطبيقات الذكاء الاصطناعي على الأجهزة المحمولة.