ثورة جديدة في التنبؤ الرقمي: تعرف على QuantSightBench

تعاني نماذج اللغة الكبيرة (LLMs) من قيود كبيرة في تقييم قدراتها في التنبؤات الكمية. يكشف البحث عن أداة جديدة، QuantSightBench، لتقييم النماذج بطريقة أكثر دقة وواقعية.

لقد أصبح التنبؤ أحد المعايير الطبيعية التي يعتمد عليها البشر في اتخاذ القرارات تحت ظل عدم اليقين. لكن، هل حقاً تعكس أساليب تقييم نماذج اللغة الكبيرة (Large Language Models) توقعاتنا الحقيقية؟ في معظم الأحيان، هذا التقييم يقتصر على مهام تتطلب أحكاماً على أشكال بسيطة مثل الأسئلة الثنائية أو الاختيارات المتعددة. بينما في الواقع، يمتد التنبؤ ليتجاوز ذلك بكثير.

في مجالات مثل الاقتصاد والصحة العامة والتركيبة الاجتماعية، تعتمد القرارات على تقديرات رقمية تتعلق بكميات مستمرة، وهو ما لا تلتقطه المعايير الحالية بشكل كافٍ. لذا، فإن تقييم هذه التقديرات يتطلب صيغة تجعل من عدم اليقين واضحاً وقابلاً للاختبار.

في هذا السياق، جاء الاقتراح باستخدام فترات التنبؤ (Prediction Intervals) كوسيلة طبيعية وصارمة لهذا الغرض. فهي تمثل وعياً بالمقياس، وتطلب تناسقاً داخلياً بين مستويات الثقة، وضبطاً على طول مجموعة من النتائج، مما يجعلها صيغة تقييم أكثر ملاءمة من التقديرات النقطية للتنبؤات العددية.

لتقييم هذه القدرة، تم تقديم معيار جديد يُدعى QuantSightBench، حيث تم تقييم نماذج رائدة في عدة إعدادات. وأسفرت النتائج عن عدم تمكن أي من النماذج الـ 11 التي تم تقييمها، سواء كانت رائدة أو مفتوحة، من تحقيق هدف تغطية بنسبة 90%. ولعل أبرز النتائج كانت نصيب النماذج الثلاثة: Gemini 3.1 Pro (79.1%)، Grok 4 (76.4%)، وGPT-5.4 (75.3%)، حيث لم تحقق أي منهم ما يكفي.

كما تم ملاحظة أن التقديرات تتدهور بشكل حاد عند القيم المتطرفة، مما يكشف عن وجود ثقة زائدة ممنهجة في جميع النماذج التي تم تقييمها.

ثورة جديدة في التنبؤ الرقمي: تعرف على QuantSightBench

📰 أخبار ذات صلة

استكشاف مشكلة تسلسل العناصر المشترك الأطول: ثغرات متعددة ومتغيرات معقدة

ARES: نظام مبتكر لتعزيز أمان نماذج اللغة من خلال التكيف والمواجهة ذات الهدف المزدوج

كيف تؤدي نماذج الذكاء الاصطناعي الأبحاث العلمية دون تفكير عميق؟