تشهد الساحة العلمية تطورات مثيرة عبر استخدام نماذج اللغات الضخمة (Large Language Models)، حيث أظهرت دراسة حديثة أن هذه الأنظمة باتت قادرة على إتمام الأبحاث العلمية بشكل مستقل. لكن، هل يمكن اعتبار تلك النتائج موثوقة؟

استنادًا إلى دراسة عقدت على 25,000 تجربة، تبين أن نماذج الذكاء الاصطناعي هذه تُظهر ثغرات ملحوظة في طريقة تفكيرها. حيث لوحظ أن النموذج الأساسي كان له الدور الأكبر في تحديد كل من الأداء والسلوك، محققًا نسبة 41.4% من الفروق المفسّرة، بينما لم تسجل الإضافات الهيكلية سوى 1.5%.

المثير للاستغراب هو أن هذه النماذج تتجاهل الأدلة في 68% من الحالات، وعمليات مراجعة الافتراضات تستند إلى نفي الحقائق في 26% فقط، مما يوضح أن لدى هذه النماذج طريقة تفكير غير موثوقة حتى عند وجود مسارات واضحة للتفكير.

كما أظهر التحليل السلوكي أن تلك الأنظمة لا تتمتع بالأنماط المعرفية التي تميز البحث العلمي، مما يعني أن الأنظمة الحالية رغم قدرتها على تنفيذ المهام، إلا أنها لا تملك القدرة على التفكير العلمي الصحيح. مما يتطلب منا إعادة النظر في كيفية تقييم نتائج الأبحاث التي تتم من خلال هذه الأنظمة، مضيفين: "لا يمكن أن يُعتبر الإنتاج العلمي منتجًا موثوقًا إذا لم تُعتبر طريقة التفكير نفسها هدفًا في التدريب".

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.