اكتشف قوة نموذج الجوائز غير المؤكدة في تعزيز التعلم الذاتي!

تمكنت مجموعة من الباحثين من إدخال إطار عمل جديد يدمج نماذج اللغة الضخمة لتحسين تصميم وظائف الجائزة في التعلم التعزيزي. هذا الابتكار يعد بتقليل التكاليف وزيادة الكفاءة في بيئات التعلم الذاتي.

تصميم وظائف الجوائز الفعالة يعد حجر الزاوية في عملية التعلم التعزيزي (Reinforcement Learning - RL)، إلا أنه يمثل تحديًا كبيرًا وعملية شاقة بسبب عدم الكفاءة وعدم التناسق التي تعاني منها الطرق التقليدية. غالبًا ما تستند الأساليب الحالية إلى تصميمات وتقييمات يدوية واسعة، مما يؤدي إلى الفائض والإغفال عن عدم اليقين المحلي خلال نقاط القرار الوسيطة.

للتغلب على هذه التحديات، نقترح إطار عمل جديد يُطلق عليه Chain of Uncertain Rewards (CoUR)، يجمع بين نماذج اللغة الضخمة (Large Language Models - LLMs) لتسهيل تصميم وتقييم وظائف الجوائز في بيئات التعلم التعزيزي. إذ يقدم CoUR طريقة لتقدير عدم اليقين من خلال كود وتقنية اختيار تعتمد على التحليل النصي والدلالي، مما يسهم في تحديد وإعادة استخدام أهم مكونات وظائف الجوائز.

من خلال تقليل التقييمات الزائدة واستغلال مفهوم التحسين باستخدام بايز (Bayesian Optimization) على مصطلحات الجوائز المفصول، يمكّن CoUR من القيام ببحث أكثر كفاءة ومرونة عن ردود الفعل المثلى للجوائز.

لقد أجرينا تقييمًا شاملًا لإطار CoUR باستخدام تسع بيئات أصلية من IsaacGym و20 مهمة من معيار Bidexterous Manipulation. تظهر النتائج التجريبية أن CoUR لا يحقق أداءً أفضل فحسب، بل يخفض أيضًا بشكل كبير من تكاليف تقييمات الجوائز.

اكتشف قوة نموذج الجوائز غير المؤكدة في تعزيز التعلم الذاتي!

📰 أخبار ذات صلة

كانفا AI 2.0: ثورة في عالم التصميم والإبداع! 🚀

الانفجار الجديد لتطبيقات الهواتف: هل تقود أدوات الذكاء الاصطناعي ثورة برمجية؟

تطبيقات الذكاء الاصطناعي اقتحمت عالم الحواسيب: هل أنتم مستعدون؟