نظام المكافآت الاستباقي ProRe: ثورة في تدريب وكلاء واجهات المستخدم!

في عالم الذكاء الاصطناعي (AI)، تعتبر المكافآت حجر الزاوية في تقييم وتدريب نماذج اللغات الكبيرة (LLMs). ومع ذلك، تشهد الأساليب التقليدية القائمة على القواعد مثل نماذج المكافآت المعتمدة على البيانات صعوبات عند التعامل مع وكلاء واجهات المستخدم (GUI)، حيث يكون الوصول إلى مسارات الحقيقة الأرضية أو قواعد بيانات التطبيقات غالبًا غير متاح.

لذلك، يتناول البحث الجديد الذي تم الإعلان عنه نظام ProRe، وهو نظام مكافآت استباقي يهدف إلى حل هذه التحديات من خلال الاستفادة من عقل مفكر متعدد الأغراض وعوامل تقييم خاصة بالمجال. يقوم العقل المفكر بتحديد مهام استكشاف مستهدفة، حيث تقوم العوامل المقيّمة بتنفيذها من خلال التفاعل النشط مع البيئة لجمع ملاحظات إضافية.

هذا النهج يمكّن العقل المفكر من تقديم مكافآت أكثر دقة وقابلية للتحقق لكل من وكلاء واجهات المستخدم. أظهرت النتائج التجريبية على أكثر من 3,000 مسار تحسينًا في دقة المكافآت بنسبة تصل إلى 5.3% وتقييم F1 بنسبة تصل إلى 19.4%. علاوةً على ذلك، عند دمج ProRe مع الوكلاء السياسات المتطورة، سجل النظام معدل نجاح محسّن بنسبة تصل إلى 22.4%.

يمكن للمطورين المهتمين الاطلاع على الشيفرة المصدرية لنظام ProRe عبر الرابط: [GitHub - ProRe](https://github.com/V-Droid-Agent/ProRe). هذا الابتكار قد يغير قواعد اللعبة في ميدان تدريب وكلاء الذكاء الاصطناعي، ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات!

نظام المكافآت الاستباقي ProRe: ثورة في تدريب وكلاء واجهات المستخدم!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!