هل يمكن لنماذج اللغات الضخمة تقييم التشخيصات الطبية مثل لجان الخبراء؟
تتجه الأبحاث الحديثة نحو استخدام نماذج اللغات الضخمة (LLMs) كبديل لتقييم الأنظمة الطبية. نتائج الدراسة تشير إلى فعالية هذه النماذج في تحسين دقة التشخيصات وتقليل الأخطاء الخطيرة.
في ظل ارتفاع تكاليف تقييم الأنظمة الطبية عبر لجان من الأطباء الخبراء، يبرز استخدام نماذج اللغات الضخمة (LLMs) كأداة بديلة لتقديم تقييم أكثر سرعة وكفاءة. في دراسة حديثة، تم تقييم أداء لجنة تتكون من ثلاثة نماذج متقدمة من الذكاء الاصطناعي، حيث تم اختبارها على 3333 تشخيصًا مستندًا إلى 300 حالة حقيقية من المستشفيات في الدول متوسطة الدخل.
تم مقارنة أداء هذه النماذج بنظام تقييم لجان الأطباء المختصين ولجان إعادة التقييم المستقلة، حيث تم评分 النتائج عبر أربعة أبعاد: التشخيص، التشخيص التفريقي، التفكير السريري، والمخاطر السلبية للعلاج. أظهرت النتائج أن:
(i) التقييمات الأولية لنماذج اللغات الضخمة كانت أقل بشكل منهجي مقارنة بأعضاء لجان الأطباء؛
(ii) حافظت لجنة LLM على توافق جيد مع تقييمات الخبراء الأساسيين، وتفوقت على لجان إعادة التقييم البشرية في توافق النتائج؛
(iii) احتمالية الأخطاء الجسيمة كانت أقل في نماذج LLM بالمقارنة مع لجان إعادة التقييم من الأطباء الخبراء؛
(iv) أظهرت لجنة LLM توافقًا ممتازًا مع تصنيفات لجان الخبراء الأساسيين.
تسمح هذه النتائج باستخدام لجنة LLM، إلى جانب تشخيصات النماذج، لتحديد التشخيصات التي تحمل خطرًا عالٍ من الخطأ، مما يمكّن من مراجعة موجهة من قبل الخبراء وتحسين فعالية لجان التقييم؛
(v) أظهرت نماذج لجنة LLM عدم وجود تحيز تفضيلي ذاتي، حيث لم تمنح تقييمات تشخيصات مولدة بواسطة نماذجها أو من نفس المورد تفضيلًا سواء بالإيجاب أو السلب عن تلك التي أنتجتها نماذج أخرى.
كما أظهرت الدراسة أن عملية المواءمة باستخدام الانحدار النظائري (isotonic regression) تحسن من التوافق مع تقييمات لجان الخبراء. بمعنى آخر، توفر هذه النتائج دليلًا قويًا على أن لجنة LLM متعددة النماذج المصححة يمكن أن تعمل كبديل موثوق للتقييم من قبل الأطباء الخبراء في مجال تقييم الذكاء الاصطناعي الطبي.
تم مقارنة أداء هذه النماذج بنظام تقييم لجان الأطباء المختصين ولجان إعادة التقييم المستقلة، حيث تم评分 النتائج عبر أربعة أبعاد: التشخيص، التشخيص التفريقي، التفكير السريري، والمخاطر السلبية للعلاج. أظهرت النتائج أن:
(i) التقييمات الأولية لنماذج اللغات الضخمة كانت أقل بشكل منهجي مقارنة بأعضاء لجان الأطباء؛
(ii) حافظت لجنة LLM على توافق جيد مع تقييمات الخبراء الأساسيين، وتفوقت على لجان إعادة التقييم البشرية في توافق النتائج؛
(iii) احتمالية الأخطاء الجسيمة كانت أقل في نماذج LLM بالمقارنة مع لجان إعادة التقييم من الأطباء الخبراء؛
(iv) أظهرت لجنة LLM توافقًا ممتازًا مع تصنيفات لجان الخبراء الأساسيين.
تسمح هذه النتائج باستخدام لجنة LLM، إلى جانب تشخيصات النماذج، لتحديد التشخيصات التي تحمل خطرًا عالٍ من الخطأ، مما يمكّن من مراجعة موجهة من قبل الخبراء وتحسين فعالية لجان التقييم؛
(v) أظهرت نماذج لجنة LLM عدم وجود تحيز تفضيلي ذاتي، حيث لم تمنح تقييمات تشخيصات مولدة بواسطة نماذجها أو من نفس المورد تفضيلًا سواء بالإيجاب أو السلب عن تلك التي أنتجتها نماذج أخرى.
كما أظهرت الدراسة أن عملية المواءمة باستخدام الانحدار النظائري (isotonic regression) تحسن من التوافق مع تقييمات لجان الخبراء. بمعنى آخر، توفر هذه النتائج دليلًا قويًا على أن لجنة LLM متعددة النماذج المصححة يمكن أن تعمل كبديل موثوق للتقييم من قبل الأطباء الخبراء في مجال تقييم الذكاء الاصطناعي الطبي.
📰 أخبار ذات صلة
أبحاث
سيمنز تطلق نظام ذكاء اصطناعي مبتكر لتعزيز هندسة الأتمتة
أخبار الذكاء اليوميةمنذ 6 ساعة
أبحاث
استكشاف إمكانيات Phi-4-Mini: دليل متكامل لتنفيذ استدلالات الكود باستخدام تقنيات LoRA وRAG
مارك تيك بوستمنذ 15 ساعة
أبحاث
أسرار تطوير كودكس: شراكتنا مع عمالقة التكنولوجيا لنقل الذكاء الاصطناعي للقطاعات العالمية!
مدونة أوبن إيه آيمنذ 16 ساعة