تسريع الابتكارات في مجال الذكاء الاصطناعي يتطلب أدوات تقييم فعالة، خصوصاً مع تزايد استخدام نماذج اللغة الضخمة (Large Language Models) كنماذج للتفاعل مع العملاء. ومع ذلك، تبقى عملية تقييم موثوقية هذه النماذج تحدياً بسبب تفاعلاتها العشوائية والمعقدة.

تستند بروتوكولات التقييم الحالية على محاكاة تجريبية خطية تستخدم عمليات حسابية مكلفة لرصد حوارات الوكيل مع المستخدمين، مما يؤدي إلى كفاءة منخفضة في النتائج ويدفع إلى إغفال الأخطاء العميقة الناتجة عن سلوكيات نادرة للمستخدمين.

لقد تم تقديم إطار العمل الجديد DIVERT (تقييم مستند إلى التنوع من خلال تفرع المسارات) كمبادرة فعالة تهدف إلى تحسين استكشاف التفاعلات بين الوكلاء والمستخدمين. يعتمد هذا النظام على التقاط الحالة الكاملة للوكيل والبيئة عند نقاط اتخاذ القرار الحاسمة، ويعيد استئناف التنفيذ من هذه اللقطات. هذا الأمر يسمح بإعادة استخدام بدايات المحادثات وتقليل الحسابات الزائدة.

كل فرع من الفروع ينطلق باستخدام استجابات مستخدمين متنوعة تهدف إلى تحفيز استكشاف مسارات تفاعلية بديلة. من خلال التركيز على تقييم المسارات المتنوعة والمعقدة، يعزز DIVERT من الكفاءة والتغطية.

أظهرت النتائج التجريبية أن هذا النظام يكتشف أخطاء أكثر بكثير لكل توكن مقارنة بالأساليب التقليدية، فضلاً عن توسيع نطاق المهام التي يتم من خلالها تحديد الأخطاء.

هذا الابتكار قد يمثل خطوة نوعية في طريقة تقييم وكلاء الذكاء الاصطناعي، مما يضمن تحسين التجربة التفاعلية ويساعد في تحديد مشكلات جديدة قد تؤثر على الأداء. سوف نتساءل، كيف سيكون مستقبل تقييم هؤلاء الوكلاء في ضوء هذه التطورات؟ شاركونا في التعليقات.