في عالم الذكاء الاصطناعي، غالبًا ما يتم التعامل مع استدلال نماذج اللغة الكبيرة (Large Language Models) كقدرة موحدة تعتمد على تفضيلات ثنائية لا تعكس التقدم الجزئي أو جودة الاستدلال الدقيقة. لكن الآن، جاء الإطار الجديد «تحسين تفضيلات الاستخدام المستمرة المباشرة» (Continuous Utility Direct Preference Optimization - CU-DPO) ليثير اهتمام الباحثين والمطورين.

يقدم CU-DPO طريقة مبتكرة تتجاوز القيود المفروضة من خلال استبدال التفضيلات الثنائية بدرجات مستمرة، مما يسمح للنماذج بالتكيف مع مجموعة من استراتيجيات التفكير المعتمدة على العروض. وقد أظهرت الدراسات أن التعلم باستخدام K استراتيجيات يوفر تحسينًا قدره Theta(K log K) في تعقيد العينة مقارنة بالتفضيلات الثنائية.

يشتمل الإطار على خطي تدريب رئيسيين: الأول هو اختيار الاستراتيجية، والذي يعزز قدرة النموذج على اختيار أفضل استراتيجية لمشكلة معينة من خلال مقارنات最佳 ضد الأفضل. أما الثاني، فهو تحسين الأداء، حيث يتم تدريب النموذج لتنفيذ الاستراتيجية المختارة بدقة باستخدام أزواج مصنفة.

التجارب على معايير الاستدلال الرياضي أظهرت أن CU-DPO زادت دقة اختيار الاستراتيجية من 35-46% إلى 68-78% عبر سبعة نماذج أساسية. هذا يعكس زيادة ثابتة في نتائج الاستدلال تصل إلى 6.6 نقاط على مجموعات البيانات المتوافقة، مع انتقال فعال للمهام خارج نطاق البيانات.

تقدم تقنية CU-DPO آفاقًا جديدة في مجالات الذكاء الاصطناعي وتحسين الذكاء الاستدراكي، مما يجعلها واحدة من الابتكارات الجذرية في هذا المجال. هل ستحقق هذه التقنية قفزة نوعية في أداء نماذج الذكاء الاصطناعي؟ ما رأيكم في هذا التطور؟ شاركونا في التعليقات.