تعد تصنيفات نماذج اللغات الضخمة (LLM) من أكثر الأدوات استخداماً في مقارنة النماذج وتوجيه قرارات النشر. لكن ما يغفل عنه الكثيرون هو أن هذه التصنيفات تتشكل وفقًا لأولويات التقييم التي يحددها مصممو المعايير، وليس وفقًا للأهداف والتحديات المتنوعة التي تواجهها المستخدمون الحقيقيون والمنظمات. تقتصر النتائج غالبًا على نقطة واحدة تُخفي كيف تتصرف النماذج في تفاعلات متعددة.

في دراسة جديدة، قمنا بإجراء تحليل متعمق للبيانات المستخدمة في معيار LMArena (السابق: Chatbot Arena) لاستكشاف هذه التحديات. وقد أظهرت النتائج أن هناك تحيزًا كبيرًا في البيانات تجاه مواضيع معينة، وأن نتائج النماذج تختلف باختلاف أنواع تفاعلات التأشير. كما استخدم التقييم القائم على التفضيلات بطرق قد تمحو نطاقاته المحددة.

بناءً على هذا التحليل، نقدم واجهة تفاعلية تسمح للمستخدمين بتحديد أولويات تقييمهم الخاصة عن طريق اختيار وتوزيع أوزان على مكونات التأشير، وبالتالي استكشاف كيف تتغير التصنيفات وفقًا لذلك. تشير دراسة نوعية إلى أن هذا النهج التفاعلي يعزز الشفافية ويدعم تقييم النماذج بطرق أكثر خصوصية وسياقًا.

النتيجة؟ قد يشير هذا أيضًا إلى طرق بديلة لتصميم واستخدام تصنيفات نماذج اللغات الضخمة، حيث يمكن للمستخدمين أن يصبحوا جزءًا من العملية التقييمية بدلاً من كونهم مجرد مشاهدين.