ثورة جديدة في التنبؤ الرقمي: تعرف على QuantSightBench
تعاني نماذج اللغة الكبيرة (LLMs) من قيود كبيرة في تقييم قدراتها في التنبؤات الكمية. يكشف البحث عن أداة جديدة، QuantSightBench، لتقييم النماذج بطريقة أكثر دقة وواقعية.
لقد أصبح التنبؤ أحد المعايير الطبيعية التي يعتمد عليها البشر في اتخاذ القرارات تحت ظل عدم اليقين. لكن، هل حقاً تعكس أساليب تقييم نماذج اللغة الكبيرة (Large Language Models) توقعاتنا الحقيقية؟ في معظم الأحيان، هذا التقييم يقتصر على مهام تتطلب أحكاماً على أشكال بسيطة مثل الأسئلة الثنائية أو الاختيارات المتعددة. بينما في الواقع، يمتد التنبؤ ليتجاوز ذلك بكثير.
في مجالات مثل الاقتصاد والصحة العامة والتركيبة الاجتماعية، تعتمد القرارات على تقديرات رقمية تتعلق بكميات مستمرة، وهو ما لا تلتقطه المعايير الحالية بشكل كافٍ. لذا، فإن تقييم هذه التقديرات يتطلب صيغة تجعل من عدم اليقين واضحاً وقابلاً للاختبار.
في هذا السياق، جاء الاقتراح باستخدام فترات التنبؤ (Prediction Intervals) كوسيلة طبيعية وصارمة لهذا الغرض. فهي تمثل وعياً بالمقياس، وتطلب تناسقاً داخلياً بين مستويات الثقة، وضبطاً على طول مجموعة من النتائج، مما يجعلها صيغة تقييم أكثر ملاءمة من التقديرات النقطية للتنبؤات العددية.
لتقييم هذه القدرة، تم تقديم معيار جديد يُدعى QuantSightBench، حيث تم تقييم نماذج رائدة في عدة إعدادات. وأسفرت النتائج عن عدم تمكن أي من النماذج الـ 11 التي تم تقييمها، سواء كانت رائدة أو مفتوحة، من تحقيق هدف تغطية بنسبة 90%. ولعل أبرز النتائج كانت نصيب النماذج الثلاثة: Gemini 3.1 Pro (79.1%)، Grok 4 (76.4%)، وGPT-5.4 (75.3%)، حيث لم تحقق أي منهم ما يكفي.
كما تم ملاحظة أن التقديرات تتدهور بشكل حاد عند القيم المتطرفة، مما يكشف عن وجود ثقة زائدة ممنهجة في جميع النماذج التي تم تقييمها.
في مجالات مثل الاقتصاد والصحة العامة والتركيبة الاجتماعية، تعتمد القرارات على تقديرات رقمية تتعلق بكميات مستمرة، وهو ما لا تلتقطه المعايير الحالية بشكل كافٍ. لذا، فإن تقييم هذه التقديرات يتطلب صيغة تجعل من عدم اليقين واضحاً وقابلاً للاختبار.
في هذا السياق، جاء الاقتراح باستخدام فترات التنبؤ (Prediction Intervals) كوسيلة طبيعية وصارمة لهذا الغرض. فهي تمثل وعياً بالمقياس، وتطلب تناسقاً داخلياً بين مستويات الثقة، وضبطاً على طول مجموعة من النتائج، مما يجعلها صيغة تقييم أكثر ملاءمة من التقديرات النقطية للتنبؤات العددية.
لتقييم هذه القدرة، تم تقديم معيار جديد يُدعى QuantSightBench، حيث تم تقييم نماذج رائدة في عدة إعدادات. وأسفرت النتائج عن عدم تمكن أي من النماذج الـ 11 التي تم تقييمها، سواء كانت رائدة أو مفتوحة، من تحقيق هدف تغطية بنسبة 90%. ولعل أبرز النتائج كانت نصيب النماذج الثلاثة: Gemini 3.1 Pro (79.1%)، Grok 4 (76.4%)، وGPT-5.4 (75.3%)، حيث لم تحقق أي منهم ما يكفي.
كما تم ملاحظة أن التقديرات تتدهور بشكل حاد عند القيم المتطرفة، مما يكشف عن وجود ثقة زائدة ممنهجة في جميع النماذج التي تم تقييمها.
📰 أخبار ذات صلة
أبحاث
استكشاف مشكلة تسلسل العناصر المشترك الأطول: ثغرات متعددة ومتغيرات معقدة
أركايف للذكاءمنذ 6 ساعة
أبحاث
ARES: نظام مبتكر لتعزيز أمان نماذج اللغة من خلال التكيف والمواجهة ذات الهدف المزدوج
أركايف للذكاءمنذ 6 ساعة
أبحاث
كيف تؤدي نماذج الذكاء الاصطناعي الأبحاث العلمية دون تفكير عميق؟
أركايف للذكاءمنذ 6 ساعة