في عالم الذكاء الاصطناعي، حيث تتواجد نماذج اللغة (Language Models) في مجالات حيوية مثل الرعاية الصحية والمالية، تبرز الحاجة إلى تقييم أدائها في ظروف عدم اليقين. غالباً ما تتمحور التقييمات التقليدية حول مشاكل ذات إجابات واضحة ومعايير نجاح محددة، مما يترك فجوة كبيرة في فهم أداء هذه النماذج في مواقف الحياة الواقعية التي تتطلب التفكير النقدي.

لملء هذه الفجوة، تم إطلاق OpenEstimate - معيار مرن متعدد المجالات يهدف إلى تقييم نماذج اللغة في مهام تقدير الأرقام. تم تصميم هذا المعيار ليساعد النماذج على دمج معلومات خلفية ضخمة وتقديم توقعات تتسم بالدقة كقيم احتمالية.

درس الباحثون أداء ستة نماذج رائدة، وتوصلوا إلى أن التوقعات الناتجة عن النماذج غالباً ما تكون غير دقيقة وتظهر ثقة مفرطة. وأظهرت النتائج أن الأداء يتحسن بشكل طفيف بناءً على كيفية استنباط عدم اليقين من النموذج، لكن التأثيرات كانت محدودة عند تغيير استراتيجية العينة أو جهد التفكير أو تصميم الاستفسارات.

يسلط OpenEstimate الضوء على التحديات التي تواجه نماذج اللغة، ويوفر منصة قوية لتطوير نماذج أكثر كفاءة في تقدير البيانات الاحتمالية والتفكير تحت ظروف عدم اليقين. هل تعتقد أن هذه التطورات ستغير طريقة تقييم النماذج في المستقبل؟