في عالم الذكاء الاصطناعي، يعد تطوير نماذج تتفاعل بكفاءة مع البيئة المحيطة بها أمراً أساسياً لتحقيق أداء عالٍ. أحد هذه التطورات هو نموذج Curiosity-Critic، الذي يركز على مكافآت الفضول استناداً إلى خطأ التنبؤ. بدلاً من التركيز على الانتقال الحالي فقط، يأخذ Curiosity-Critic بعين الاعتبار خطأ التنبؤ التراكمي لجميع الانتقالات التي تم زيارتها، مما يجعله أكثر فعالية في تدريب نماذج العالم (World Models).

يُقدم هذا النموذج طريقة جديدة لقياس المكافآت المستندة إلى تحسين الهدف التراكمي، حيث تتقلص إلى شكل يمكن التعامل معه عند كل خطوة. ويعتمد النجاح في هذه العملية على تقدير خطأ التنبؤ الأساسي بشكل آني باستخدام ناقد متعلم (Critic) يرافق نموذج العالم في التدريب. هذا الناقد يتجه نحو تحسين الاستكشاف بدلاً من الاعتماد على المعرفة المسبقة.

تمكنت التجارب التي أجريت في بيئات عشوائية من إظهار أن نموذج Curiosity-Critic يتفوق على نماذج خطأ التنبؤ التقليدية وأيضاً نماذج حساب عدد الزيارات من حيث سرعة التقارب ودقة نموذج العالم النهائي. إن هذا النموذج لا يُفصل فقط بين الأخطاء القابلة للتقليل (epistemic) والأخطاء العشوائية (aleatoric)، بل يعيد توجيه الاهتمام نحو النتائج القابلة للتحصيل.

في الختام، يُعد نموذج Curiosity-Critic خطوة مبتكرة نحو تحسين كيفية استكشاف نماذج الذكاء الاصطناعي لبيئاتها، مما يمهد الطريق لتحقيق المزيد من الابتكارات في هذا المجال.