🔬 أبحاث1 دقائق للقراءة👁 0 مشاهدة

نظام المكافآت الاستباقي ProRe: ثورة في تدريب وكلاء واجهات المستخدم!

يقدم نظام ProRe حلاً مبتكرًا لتعزيز دقة المكافآت لوكلاء واجهات المستخدم (GUI) عبر تفاعل فعال بين العقل المفكر والعوامل المقيّمة. النتائج تجسد تحسينًا ملحوظًا في الأداء، مما يفتح آفاقاً جديدة في مجال الذكاء الاصطناعي.

في عالم الذكاء الاصطناعي (AI)، تعتبر المكافآت حجر الزاوية في تقييم وتدريب نماذج اللغات الكبيرة (LLMs). ومع ذلك، تشهد الأساليب التقليدية القائمة على القواعد مثل نماذج المكافآت المعتمدة على البيانات صعوبات عند التعامل مع وكلاء واجهات المستخدم (GUI)، حيث يكون الوصول إلى مسارات الحقيقة الأرضية أو قواعد بيانات التطبيقات غالبًا غير متاح.

لذلك، يتناول البحث الجديد الذي تم الإعلان عنه نظام ProRe، وهو نظام مكافآت استباقي يهدف إلى حل هذه التحديات من خلال الاستفادة من عقل مفكر متعدد الأغراض وعوامل تقييم خاصة بالمجال. يقوم العقل المفكر بتحديد مهام استكشاف مستهدفة، حيث تقوم العوامل المقيّمة بتنفيذها من خلال التفاعل النشط مع البيئة لجمع ملاحظات إضافية.

هذا النهج يمكّن العقل المفكر من تقديم مكافآت أكثر دقة وقابلية للتحقق لكل من وكلاء واجهات المستخدم. أظهرت النتائج التجريبية على أكثر من 3,000 مسار تحسينًا في دقة المكافآت بنسبة تصل إلى 5.3% وتقييم F1 بنسبة تصل إلى 19.4%. علاوةً على ذلك، عند دمج ProRe مع الوكلاء السياسات المتطورة، سجل النظام معدل نجاح محسّن بنسبة تصل إلى 22.4%.

يمكن للمطورين المهتمين الاطلاع على الشيفرة المصدرية لنظام ProRe عبر الرابط: [GitHub - ProRe](https://github.com/V-Droid-Agent/ProRe). هذا الابتكار قد يغير قواعد اللعبة في ميدان تدريب وكلاء الذكاء الاصطناعي، ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات!
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة