هل يمكن لنماذج اللغات الضخمة تقييم التشخيصات الطبية مثل لجان الخبراء؟

في ظل ارتفاع تكاليف تقييم الأنظمة الطبية عبر لجان من الأطباء الخبراء، يبرز استخدام نماذج اللغات الضخمة (LLMs) كأداة بديلة لتقديم تقييم أكثر سرعة وكفاءة. في دراسة حديثة، تم تقييم أداء لجنة تتكون من ثلاثة نماذج متقدمة من الذكاء الاصطناعي، حيث تم اختبارها على 3333 تشخيصًا مستندًا إلى 300 حالة حقيقية من المستشفيات في الدول متوسطة الدخل.

تم مقارنة أداء هذه النماذج بنظام تقييم لجان الأطباء المختصين ولجان إعادة التقييم المستقلة، حيث تم评分 النتائج عبر أربعة أبعاد: التشخيص، التشخيص التفريقي، التفكير السريري، والمخاطر السلبية للعلاج. أظهرت النتائج أن:

(i) التقييمات الأولية لنماذج اللغات الضخمة كانت أقل بشكل منهجي مقارنة بأعضاء لجان الأطباء؛
(ii) حافظت لجنة LLM على توافق جيد مع تقييمات الخبراء الأساسيين، وتفوقت على لجان إعادة التقييم البشرية في توافق النتائج؛
(iii) احتمالية الأخطاء الجسيمة كانت أقل في نماذج LLM بالمقارنة مع لجان إعادة التقييم من الأطباء الخبراء؛
(iv) أظهرت لجنة LLM توافقًا ممتازًا مع تصنيفات لجان الخبراء الأساسيين.

تسمح هذه النتائج باستخدام لجنة LLM، إلى جانب تشخيصات النماذج، لتحديد التشخيصات التي تحمل خطرًا عالٍ من الخطأ، مما يمكّن من مراجعة موجهة من قبل الخبراء وتحسين فعالية لجان التقييم؛
(v) أظهرت نماذج لجنة LLM عدم وجود تحيز تفضيلي ذاتي، حيث لم تمنح تقييمات تشخيصات مولدة بواسطة نماذجها أو من نفس المورد تفضيلًا سواء بالإيجاب أو السلب عن تلك التي أنتجتها نماذج أخرى.

كما أظهرت الدراسة أن عملية المواءمة باستخدام الانحدار النظائري (isotonic regression) تحسن من التوافق مع تقييمات لجان الخبراء. بمعنى آخر، توفر هذه النتائج دليلًا قويًا على أن لجنة LLM متعددة النماذج المصححة يمكن أن تعمل كبديل موثوق للتقييم من قبل الأطباء الخبراء في مجال تقييم الذكاء الاصطناعي الطبي.

هل يمكن لنماذج اللغات الضخمة تقييم التشخيصات الطبية مثل لجان الخبراء؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!