# دراسة جديدة حول الثقة الكلامية في نماذج الذكاء الاصطناعي

في عالم الذكاء الاصطناعي (Artificial Intelligence)، تعد القدرة على التعبير عن الثقة الكلامية (Verbal Confidence) من الركائز الأساسية لتقييم دقة النماذج اللغوية الكبيرة (Large Language Models أو LLMs). مؤخراً، أجريت دراسة بارزة على سبع نماذج من هذه النماذج التي تتراوح أوزانها بين 3 و9 مليار معلمة، وكانت النتائج مثيرة للدهشة.

نتائج الدراسة



تم تصميم تجربة شاملة اختبرت مدى قدرة هذه النماذج على تقديم تقييمات موثوقة لثقتها. حيث تم تقديم **524 سؤالًا** من TriviaQA لأداء الاختبار باستخدام طريقتين: الطريقة الرقمية (0-100) والفئوية (10 فئات). للأسف، أظهرت النتائج أن جميع النماذج السبعة خضعت لتصنيف غير صالح في تقدير الثقة الرقمية، حيث حققت متوسط معدل أقصى يصل إلى 91.7%.

![صورة توضيحية لدراسة نماذج الذكاء الاصطناعي](https://example.com/image.jpg)

كما أظهرت الدراسة أن استخدام الفئات لم يحسن من صحة النتائج، بل أثر سلبًا على أداء ستة من النماذج، حيث كانت دقة النتائج أقل من 5%.

تأثير النتائج على مستقبل النموذج



تظهر هذه النتائج أن مجرد استخدام **الإثارة الكلامية** (Verbal Elicitation) لا يكفي لضمان موثوقية النتائج. قد تشير هذه الدراسات إلى أنه يجب إجراء فحوص نفسية (Psychometric Screening) قبل الاعتماد على هذه النماذج في تطبيقات عملية.

هل توافق على ضرورة إعادة تقييم موثوقية نماذج الذكاء الاصطناعي؟