في خطوة جديدة ومبتكرة، قدم فريق من الباحثين نظام ActuBench، وهو خط أنابيب (Pipeline) متقدم يعتمد على نماذج لغوية متعددة الوكلاء (Multi-Agent LLM) لتوليد وتقييم مهام التقييم الاكتواري بشكل آلي. تم تصميم هذا النظام ليتماشى مع المنهج التعليمي لجمعية الاكتواريين الدولية (International Actuarial Association - IAA)، موفرًا مساحة مبتكرة للتعامل مع مختلف قضايا التقييم بشكل أسرع وأكثر دقة.
يعمل ActuBench من خلال تقسيم الأدوار بين أربعة وكلاء (Agents) معتمدين على تقنية التوصيف، حيث يقوم أحدهم بإعداد المسائل، بينما يركز الآخر على إنشاء خيارات غير صحيحة، والوكيل الثالث يقوم بالتحقق بشكل مستقل من المراحل السابقة ويقود حلقات إصلاح محدودة، في حين يتولى الوكيل المساعد إدارة تلخيص المعلومات من ويكيبيديا وتصنيف الموضوعات.
تحتوي المنصة على واجهة ويب سهلة الاستخدام متاحة للجميع عبر الرابط [actubench.de/en](https://actubench.de/en/)، مما يتيح للمستخدمين والمهنيين الاطلاع على العناصر الفردية بدون الحاجة لتسجيل الوصول إلى المستودع. في تقييم شامل، خضع 50 نموذجًا لغويًا من ثمانية مزودين لاختبارات تعتمد على معيارين متكاملين: مسائل اختيار من متعدد صعبة ومستندات مفتوحة تم تقييمها بواسطة وكيل LLM.
أظهرت النتائج ثلاث ملاحظات بارزة. أولاً، يظهر أن عملية التحقق بواسطة الوكلاء المتعددين تعد محورية، حيث استطاع المراجع المستقل تحديد نسبة كبيرة من العناصر التي تم إعدادها في الجولة الأولى، معظمها تم حله خلال حلقات الإصلاح الفوري. ثانيًا، تقدم نماذج معينة مثل Gemma~4 أداءً ممتازًا على الأجهزة المنزلية الاقتصادية، بينما النموذج المميز ذو 120 مليار وزن يتصدر قائمة الأداء بتكلفة تقريبية قريبة من الصفر. ثالثًا، تبين أن ترتيب العناصر في مسائل الاختيار المتعدد يتباين بشكل ملحوظ عن تلك التي تُقَيَّم بواسطة وكيل LLM، مما يؤكد أهمية تقييم وكيل القضاة في تمييز الأداء عند الحدود القصوى.
إن ActuBench يمثل قفزة نوعية في كيفية التعامل مع مسائل التقييم الاكتواري بفضل استخدامه لأحدث تقنيات الذكاء الاصطناعي، ما يفتح آفاقاً جديدة أمام المهنيين والباحثين في هذا المجال. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
اكتشفوا ActuBench: ثورة في تقييم مهارات التقييم الاكتواري
يقدم ActuBench حلاً مبتكرًا لتوليد وتقييم مهام التقييم الاكتواري بفضل منهجية متعددة الوكلاء (Multi-Agent). مع هذا النظام المتقدم، يمكنكم فهم وتحليل مسائل التقييم بشكل أكثر دقة وسهولة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
