مع تزايد استخدام نماذج اللغة الكبيرة (Large Language Models - LLMs) في إنتاج النصوص السريرية ومعالجتها، أصبحت الحاجة إلى التقييم القابل للتوسع أمراً ملحاً. يعد نموذج LLM كقاضي (LLM-as-a-Judge - LaaJ) بديلاً قابلاً للتوسع للتقييم باهظ الثمن الذي يقوم به الخبراء، لكن اعتماده في مجال الرعاية الصحية يثير مخاوف بشأن الأمان والتحيز.
خلال دراسة شاملة، قمنا بمراجعة معايير PRISMA-ScR لست قواعد بيانات (من يناير 2020 إلى يناير 2026)، حيث قمنا بفحص 11,727 دراسة وتضمنت 49 دراسة فقط. تركزت النتائج بشكل رئيسي على تطبيقات التقييم والمعايير (37 دراسة، بنسبة 75.5%)، والترتيب النقطي (42 دراسة، بنسبة 85.7%)، وقضاة من عائلة GPT (36 دراسة، بنسبة 73.5%).
على الرغم من تزايد الاعتماد، كانت دقة التحقق محدودة: من بين 36 دراسة تضمنت مشاركة بشرية، كان العدد الوسطي للخبراء المتحققين 3، بينما لم تستخدم 13 دراسة (26.5%) أي خبراء. كما لم يكن هناك اختبار لمخاطر التحيز في 36 دراسة (73.5%)، وواحدة فقط (2.0%) درست العدالة الديموغرافية، ولم يُقيّم أي منها الاستقرار الزمني أو سياق المريض.
من المهم الإشارة إلى أن نطاق النشر كان محدودًا، إذ وصلت دراسة واحدة فقط (2.0%) إلى مرحلة الإنتاج، بينما بلغ عدد الدراسات في مرحلة النموذج الأولي 4 (8.2%). تشكل هذه الثغرات مجتمعة فجوات حوكمة، حيث قد تفوت عمليات التحقق الحالية الأخطاء السريرية المهمة.
لحل هذه القضايا، نقترح مشروع MedJUDGE (Medical Judge Utility, De-biasing, Governance and Evaluation) كإطار عمل مكون من ثلاثة أعمدة، يتمحور حول الصحة، والأمان، والمسؤولية عبر مستويات الخطر السريرية، مما يوفر توجيهات تقييمية موجهة للنشر لأنظمة LaaJ في الرعاية الصحية.
ختام
هل تعتقد أن نموذج LLM كقاضي يمكن أن يحدث ثورة في الرعاية الصحية؟ شاركنا رأيك!
