تتزايد استخدامات نماذج اللغات الضخمة (Large Language Models) في مساعدة المرضى على مواجهة تساؤلاتهم الطبية، لكن هل تعكس التقييمات الحالية فعاليتها حقًا؟ كثير من الأساليب القديمة تركز فقط على مدى تشابه الأجوبة، دون النظر إلى الدقة الطبية أو مخاطر العدالة الصحية.

قمنا بمراجعة إطار تقييم جديد يحمل اسم VB-Score (Verification-Based Score)، والذي يقدم تقييمًا منفصلًا لأربعة عناصر رئيسية؛ هي التعرف على الكيانات، التشابه الدلالي، التناسق الواقعي، واكتمال المعلومات الهيكلية.

أجريت دراسات دقيقة على أداء ثلاثة نماذج معروفة تستخدم على نطاق واسع في 48 موضوعًا متعلقًا بالصحة العامة، مأخوذة من معلومات موثوقة وعالية الجودة. وكشفت التحليلات عن فجوة كبيرة بين الدقة الدلالية ودقة الكيانات في هذه النماذج.

تظهر النتائج أن جميع النماذج الثلاثة تعاني من إخفاقات أداء حادة عند تقييمها وفقًا لمعاييرنا الجديدة. وحد يدل على هذه النتائج هو وجود تفاوت يقل 13.8% في الأداء في المواضيع الصحية المتعلقة بالأمراض المزمنة التي تصيب كبار السن والمجموعات المهمشة، مما يشير إلى وجود تمييز خوارزمي قائم على الحالة.

تعكس هذه النتائج أهمية إعادة النظر في كيفية تقييم نماذج الذكاء الاصطناعي، إذ أن الاعتماد فقط على تقييمات دلالية قد لا يكون كافيًا لضمان السلامة الطبية اللازمة.