في عالم الذكاء الاصطناعي، باتت التوقعات تنمو بشكل مستمر حول قدرة المساعدين الافتراضيين على الاحتفاظ بالمعلومات والتفاعل معها عبر الجلسات المتعددة. هنا يأتي دور مشروع EngramaBench، المعيار الجديد الذي يهدف إلى تقييم الذاكرة التفاعلية طويلة المدى لنماذج اللغة.

ما يميز EngramaBench هو بناؤه حول خمس شخصيات، ومائة محادثة متعددة الجلسات، ومائة وخمسين استفسار تمثل مجالات مختلفة مثل استرجاع الحقائق، تكامل المعلومات عبر المساحات، التفكير الزمني، الامتناع العدائي، وظهور الاصطناعات.

تم تقييم نظام الذاكرة Engrama، المعتمد على بنية رسومية، مقابل طريقة التحفيز الشامل لـ GPT-4o ونظام استرجاع المتجهات مفتوح المصدر Mem0. كل من هذه الأنظمة استخدمت نفس نموذج الإجابة (GPT-4o)، مما يساعد على عزل تأثير بنية الذاكرة.

في نتائج التقييم، حققت طريقة التحفيز الشامل لـ GPT-4o أعلى نقطة مركبة (0.6186)، بينما سجل Engrama نقطة 0.5367 عالمياً، لكنه كان النظام الوحيد الذي حقق نتيجة أعلى من التحفيز الشامل في مجال التفكير عبر المساحات (0.6532 مقابل 0.6291، n=30). بينما يعتبر Mem0 الأكثر اقتصادية، إلا أنه كان أضعف بشكل ملحوظ (0.4809).

تكشف التحليلات أن المكونات التي تعزز ميزة Engrama في التفكير عبر المساحات تتعارض مع النتيجة الكلية، مما يعكس توتراً على مستوى الأنظمة بين التخصص في الذاكرة المنظمة والتOptimizing الشامل. هذه النتائج تفتح آفاقاً جديدة لفهم كيفية تحسين الأنظمة المعقدة ولماذا قد تكون بعض الاستراتيجيات أكثر فعالية من غيرها في سياقات معينة.

هل تعتقد أن مثل هذه المنهجيات ستحدث ثورة في تفاعلنا مع الذكاء الاصطناعي؟ شاركونا بآرائكم وتجاربكم في التعليقات!