في عالم الذكاء الاصطناعي، يواجه وكلاء التعلم المعزز (Reinforcement Learning) العديد من التحديات عندما يتم نشرهم في أنظمة مغلقة. يعتمد أداء هؤلاء الوكلاء على قدرة استجابتهم في الحفاظ على ترابط متماسك بين الملاحظات (Observations)، الأفعال (Actions)، والنتائج (Outcomes). للأسف، تعتمد الطرق الحالية لمراقبة الأداء على المقاييس التفاعلية التي قد تكون غير كافية في الكشف عن التدهور الهيكلي الذي يسبق انهيار الأداء.

هنا يأتي دور مفهوم جديد يحمل اسم Bipredictability، والذي يعبر عن جزء من إجمالي ميزانية عدم اليقين الذي تم تحويله إلى قدرة توقع مشتركة عبر حلقة الملاحظات والأفعال والنتائج. نظرية المعلومات تتيح لنا قياس عدم اليقين باستخدام مفهوم الإنتروبيا (Entropy)، بينما تقيس المعلومات المتبادلة (Mutual Information) مدى قدرة هذه المعلومات على تقليل عدم اليقين.

قدمت الأبحاث التي أجريت مؤخراً نظرة عميقة على كيفية استخدام Bipredictability كإشارة للمراقبة في الوقت الحقيقي. تم تطوير ما يسمى بـ "التوأم الرقمي المعلوماتي" (Information Digital Twin) الذي يحسب قيم Bipredictability دون الحاجة للوصول إلى بيانات النماذج الداخلية.

نتائج التجارب أظهرت أن نظام المراقبة المعتمد على Bipredictability كان قادرًا على كشف 89.3% من تدهورات الترابط مقابل 44% تقريبا في الأنظمة التقليدية. بالإضافة إلى ذلك، كانت فترة الاستجابة لاستخدام بيث predictability أقل بـ 4.4 مرة.

هذا البحث يوضح أهمية وجود أدوات مراقبة جديدة تعزز من فعالية أنظمة التعلم المعزز، مما يسهل عليها التكيف مع التغيرات البيئية والتقلبات في الأداء.