في عالم الذكاء الاصطناعي، لا تزال نماذج اللغات الضخمة (Large Language Models) تواجه تحديات كبيرة في معالجة الفيديوهات الطويلة. فعلى الرغم من أن هذه النماذج تظهر أداءً متميزاً في التفكير القصير الأمد، إلا أنها تعاني من محدودية النوافذ السياقية وآليات الذاكرة الثابتة التي لا تعكس كفاءة الإدراك البشري.

تقليدياً، تندرج paradigms في فئتين متعارضتين: الأساليب المعتمدة على الرؤية التي تتسبب في تأخير عالٍ وتراكم بصري كثيف، أو الأساليب المعتمدة على النص التي تعاني من فقدان التفاصيل والهلاوس بسبب التسمية العدوانية.

لجسر هذه الفجوة، نقترح نموذج MM-Mem، وهو هيكل ذاكرة متعددة الأبعاد يقوم على نظرية Fuzzy-Trace. يقوم MM-Mem بتنظيم الذاكرة بشكل هرمي إلى ثلاث مستويات:
1. **Buffer الحساسية (Sensory Buffer)**
2. **تدفق لحظي (Episodic Stream)**
3. **مخطط رمزي (Symbolic Schema)**

هذا التنظيم يمكّن من تقطير الآثار الإدراكية الدقيقة (verbatim) إلى مخططات سموية عالية المستوى (gist). وفضلاً عن ذلك، لاستغلال بناء الذاكرة بشكل ديناميكي، نستخرج هدف **Semantic Information Bottleneck** ونقدم SIB-GRPO الذي يعمل على تحسين التوازن بين ضغط الذاكرة والاحتفاظ بمعلومات مرتبطة بالمهام.

أظهرت التجارب الواسعة عبر أربعة معايير أن MM-Mem حقق أداءً رائداً في كل من المهام غير المتصلة والمهام المباشرة، مما يبرز قوة العموم وفعالية تنظيم الذاكرة المستلهم من الإدراك البشري. للحصول على الكود والتكوينات المرتبطة، يمكنكم زيارة [رابط GitHub](https://github.com/EliSpectre/MM-Mem).

ما رأيكم في هذا التقدم التكنولوجي المثير؟ شاركونا آراءكم في التعليقات!