في عالم الذكاء الاصطناعي، تُعَدُّ نماذج اللغات الضخمة (Large Language Models) من ابتكارات القرن الجديد، حيث تهدف هذه النماذج إلى محاكاة اللغة البشرية والتفاعل بشكل يساعد المستخدمين في إنجاز مهام متنوعة. ومع ذلك، يواجه الباحثون تحديات كبيرة في كيفية جعل هذه النماذج آمنة وموثوقة.

من أبرز التطورات في هذا المجال تقنية Cat-DPO، التي تُعتبر ثورة في محاذاة الأمان وفقاً لفئات الأذى. تُعالج المُشكلة المُعقَّدة المتمثلة في ضرورة مُوازنة استجابة الآلات لمطالب المستخدمين الشرعية مع رفض الإجراءات الضارة.

معظم أساليب محاذاة السلامة المعتمدة على التفضيلات تُعامل السلامة كمتغير واحد يتم تطبيقه بشكل مباشر على كل أزواج التفضيلات. لكن هذه الطريقة تفشل في تحسين الأمان بشكل فعال، حيث تظهر النتائج أن النموذج يبدو آمنًا بشكل عام ولكنه يبقى غير آمن في بعض الفئات الضارة.

تمثل Cat-DPO الحل الأمثل، حيث أن هذه التقنية تتبنى نهج التحسين الموجه حسب كل فئة، مما يوفر هامش أمان متكيف لكل نوع من الأذى. عندئذٍ، يقلص الهامش عندما تنتج النماذج ردوداً غير آمنة في فئة معينة، ويستمر في التكيف مع صعوبة كل فئة على حدة بدلاً من الاعتماد على متوسط شامل.

تظهر نتائج التجارب التي أجريت على اثنين من نماذج اللغات الضخمة وستة طرق لتعلم التفضيلات أن تقنية Cat-DPO حسنت من فعالية الاستجابة وقللت من نسبة الأذى بشكل ملحوظ، مما يقدم حلاً مُبتكرًا في تعزيز الأمان والموثوقية لنماذج الذكاء الاصطناعي.