عندما يتعلق الأمر بنماذج اللغة الكبيرة (Large Language Models - LLMs)، فإن الاعتماد المتزايد عليها في مختلف القطاعات يعكس الحاجة الماسة إلى مجموعات بيانات تقييم قوية ومخصصة. لكن، يجابه هذا التحدي العديد من العقبات، بدءًا من المشكلات المتعلقة بالخصوصية، مرورًا بالقيود التنظيمية، ووصولًا إلى التكاليف الزمنية المرتبطة بإنشاء مثل هذه المجموعات يدوياً.
تتجاوز طرق التقييم الآلي الحالية العديد من العقبات، غير أنها تظل محدودة في الاعتماد على البيانات الموجودة، وتعاني من ضعف في القابلية للتوسع، وتركيز ضيق على مجال واحد، ونقص في الدعم متعدد اللغات.
**STELLAR-E**: الحل المبتكر
تأتي STELLAR-E كمصدر أساسي وموثوق به، فهي نظام آلي بالكامل يولد مجموعات بيانات اصطناعية عالية الجودة بحجم مخصص، مما يتطلب الحد الأدنى من المدخلات البشرية دون اعتماد على مجموعات البيانات الحالية. يتكون النظام من مرحلتين رئيسيتين:
1. **تعديل إطار العمل TGRT Self-Instruct**: لخلق محرك بيانات اصطناعية يسمح بتوليد مجموعات بيانات اصطناعية مخصصة وبتحكم عالي.
2. **خط أنابيب التقييم**: الذي يدمج مقاييس إحصائية ومقاييس تعتمد على نماذج اللغة لتقييم مدى ملاءمة المجموعة الاصطناعية لتقييم التطبيقات المعتمدة على LLM.
تظهر النتائج أن مجموعات البيانات الاصطناعية تحقق متوسط فرق يصل إلى +5.7% في درجات LLM-as-a-judge مقارنةً بالمؤشرّات الموجودة، مما يدل على جودة مماثلة للتقييم الشامل لكل من النماذج الكبيرة والصغيرة.
في حين أن المجموعات الحقيقية تظل أكثر تحديًا بالنسبة لنماذج اللغة، خاصة بالنسبة للنماذج الأصغر، إلا أن هذا العمل يؤسس لإطار تقييم قابل للتكيف وداعم لتقييم عادل لتطبيقات LLM. يعدّ هذا النظام بديلاً أسرع ينقلك إلى دورات ضمان الجودة الآلية عالية الكفاءة.
