تعد عمليات إدارة الذاكرة جزءًا حيويًا من كفاءة استدلال النماذج اللغوية الكبيرة (Large Language Models) التي تعتمد بشكل كبير على ذاكرة كاش المفاتيح والقيم (Key-Value Cache). إلا أن التحدي الكبير يكمن في توسع حجم الذاكرة بشكل خطي مع طول السياق، مما يؤدي إلى عقبة هامة في قابلية التوسع.

تقليديًا، يتم التعامل مع حالات الذاكرة المسماة KV كأمور متساوية الأهمية عبر الزمن، لكن هذا الافتراض يتعارض مع الطريقة التي تعمل بها أنظمة الذاكرة البشرية، حيث تختلف الذكريات في وضوحها وتكرار استدعائها وأهميتها بناءً على القرب الزمني. انطلاقًا من هذا الفهم، نقدم TTKV، وهو إطار جديد لإدارة ذاكرة كاش KV، والذي يهدف إلى محاكاة نظام الذاكرة الإنسانية.

يعمل TTKV على تقسيم ذاكرة الكاش إلى مستويات زمنية ذات سعات ودقة غير متساوية، مما يتيح توزيع أكثر فعالية للموارد. ويعالج التصميم ثلاث جوانب رئيسية: أولاً، تخطيط المستويات (Tier Layout) الذي يفصل بين ذاكرة سريعة وأخرى بطيئة باستخدام ذاكرة الوصول العالية السرعة (HBM) وذاكرة الوصول العشوائي الديناميكي (DRAM). ثانيًا، محتوى المستويات (Tier Content) الذي يقوم بتخصيص حالات KV الأكثر حداثة للمستويات الأسرع والأعلى دقة بناءً على القرب الزمني. ثالثًا، تفاعل المستويات (Tier Interaction) الذي يستخدم تقنيات الانتباه البيني لتقليل التداخل بين الاتصالات وحساب العمليات عند الوصول إلى المستويات البطيئة.

أظهرت التجارب أن TTKV يقلل حجم الحركة بين المستويات بنسبة تصل إلى 5.94 ضعف في المهام ذات 128K سياق، مما يحقق تحسينًا في زمن الاستجابة بنسبة تصل إلى 76% وزيادة في قدرة المعالجة بمقدار الضعف مقارنة بأساليب قائمة قوية. يبدو أن TTKV يعد بنقلة نوعية في عالم إدارة الذاكرة للنماذج اللغوية الكبيرة، مما يؤكد أهمية استنباط استراتيجيات جديدة تحاكي فعالية النظام البشري.