في عالم سريع التطور، أصبح الذكاء الاصطناعي جزءًا لا يتجزأ من اتخاذ قرارات صحية ذكية، وخاصة في مجالات العلاج الطبيعي وتوصيات التمارين الرياضية. قامت دراسة حديثة بمقارنة دقة وموثوقية وصفات التمارين التي تنتجها ثلاثة من النماذج اللغوية الكبيرة (Large Language Models)، وهي GPT-4.1، Claude Sonnet 4.6 وGemini 2.5 Flash.تهدف الدراسة إلى تقييم مدى اتساق هذه النماذج في إنتاج وصفات التمارين تحت ظروف ضوابط ثابتة (temperature=0).
وللقيام بذلك، قام الباحثون بإنتاج 360 وصفة لستة سيناريوهات سريرية مختلفة بتكرار 20 مرة لكل نموذج، وتحليل النتائج عبر أربعة أبعاد رئيسية: التشابه الدلالي، إعادة إنتاج المخرجات، تصنيف FITT المعتمد على النتائج، وبيان الأمان.
تُظهر النتائج أن متوسط التشابه الدلالي كان الأعلى لنموذج GPT-4.1 حيث سجل 0.955، تلاه Gemini 2.5 Flash بـ 0.950، وأخيرًا Claude Sonnet 4.6 بـ 0.903. الأرقام تعكس اختلافات جوهرية في سلوكيات النماذج المنتجة: حيث أنتج GPT-4.1 نتائج فريدة تمامًا (100%) مع محتوى دلالي ثابت، بينما أظهر Gemini 2.5 Flash تكراراً ملحوظاً في النتائج (27.5% مخرجات فريدة)، مما يشير إلى أن درجات التشابه العالية ناتجة عن تكرار النصوص بدلاً من التفكير المتسق.
هذه النتائج تؤكد أن ظروف التكرار قد تؤدي إلى ملفات تعريف اتساق مختلفة تمامًا، وهو ما لا يمكن لعمليات التقييم التي تقتصر على مخرجات مفردة أن تلتقطه. كما أن بيانات الأمان عكست مستويات تشبع عالية عبر جميع النماذج، مما يجعلها مقياساً محدود الاستخدام للتفريق بين النماذج.
في النهاية، تُقدم هذه النتائج دليلاً قوياً على أن اختيار النموذج يعتمد على القرارات السريرية أكثر من كونه قراراً تقنياً فقط. ينبغي أن تؤخذ سلوكيات المخرجات في الاعتبار كمعيار أساسي لتوظيف أنظمة وصفات التمارين المعتمدة على النماذج اللغوية الكبيرة (LLM) بشكل موثوق.
تحليل مثير: كيفية تأثير نماذج الذكاء الاصطناعي على وصفات التمارين الرياضية!
كشفت دراسة جديدة عن تفاوتات ملحوظة في دقة وملاءمة وصفات التمارين الرياضية التي تولدها نماذج لغوية كبيرة. جرب الباحثون ثلاثة نماذج مختلفة ووجدوا أن أداء GPT-4.1 يتفوق بشكل ملحوظ على الآخرين في مجالات معينة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
