تسجل نماذج التفكير الكبيرة (Large Reasoning Models) تقدمًا مذهلاً في مهام التفكير المعقد، ولكنها غالبًا ما تنتج إجابات مضرة عندما تتعرض لاستفسارات خبيثة من المستخدمين. وقد حظيت هذه المشكلة باهتمام كبير من الباحثين، حيث تم كشف النقاب عن السبب الجذري وراء هذه المخاطر المتعلقة بالسلامة: إن الأمر يتعلق ببنية التفكير نفسها.

استنادًا إلى هذه المدخلة، يطرح البحث الجديد فكرة أن تعزيز الأمان الفعال يمكن تحقيقه من خلال تعديل بنية التفكير. يقدم الباحثون طريقة مبتكرة تُعرف بـ AltTrain، وهي تقنية بسيطة وفعالة تُركز على تغيير بنية التفكير بعد التدريب.

تتميز AltTrain بأنها عملية وقابلة للتعميم، حيث لا تتطلب أي تدريب معقد باستخدام التعلم المعزز (Reinforcement Learning) أو تصميم مكافآت، وإنما تقتصر على تحسين إشرافي بسيط (Supervised Fine-Tuning) باستخدام مجموعة خفيفة من 1000 مثال تدريبي.

أظهرت التجارب التي أجريت على عدة نماذج أساسية وبأحجام مختلفة من نماذج التفكير الكبيرة نتائج مبهرة في تحسين سلامة النتائج، بالإضافة إلى تعزيز عام لعمليات التفكير، والإجابات، والتلخيص، فضلاً عن الأداء متعدد اللغات.

إن هذه النتائج تعكس أهمية إعادة النظر في كيفية تصميم وبنية نماذج الذكاء الاصطناعي، بما يسهم في تعزيز الأمان وتقليل المخاطر الضارة المرتبطة بالاستجابة للمستخدمين.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.