🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

ثورة جديدة في نموذج الذكاء الاصطناعي: سياسة التعزيز المدمجة لتحسين أداء نماذج اللغة المسنّدة

تقدم الأبحاث الأخيرة نموذج سياسة التعزيز المدمجة (SPG) كشريحة جديدة لتحسين نماذج اللغة المسنّدة (dLLMs). تمكن هذا الابتكار من تجاوز التحديات السابقة مع زيادة كبيرة في الدقة في المهام المختلفة.

يتجه الذكاء الاصطناعي نحو آفاق جديدة مع تزايد الاعتماد على نماذج اللغة المسنّدة (Diffusion Large Language Models - dLLMs) كبديل فعال للنماذج التقليدية، حيث تتميز هذه النماذج بقدرتها على فك تشفير عدة رموز في وقت واحد. ولكن، تواجه هذه النماذج تحديات كبيرة عند محاولتها التوافق مع تفضيلات البشر أو المكافآت المحددة من خلال التعلم المعزز (Reinforcement Learning - RL).

تظهر الأبحاث أن تطبيق أساليب سياسة التعزيز التقليدية يكون صعبًا بسبب صعوبة حساب اللوغاريتم الاحتمالي الحقيقي، وهو ما يجعل التطبيقات المباشرة لهذه الأساليب غير فعالة. في السابق، استخدمت عدة دراسات تقنيات تقريبية مثل حدود الأدلة الدنيا (Evidence Lower Bound - ELBO)، لكن هذه التقنيات قد تؤدي إلى انحياز كبير في تقدير سياسة التعزيز.

لذا، قدم الباحثون نموذج سياسة التعزيز المدمجة (Sandwiched Policy Gradient - SPG)، الذي يستفيد من كليهما - الحدود العليا والسفلى للإحتمالية الحقيقية. وتظهر التجارب أن SPG يتفوق بشكل ملحوظ على الطرق التقليدية المرتكزة على ELBO أو التقديرات ذات الخطوة الواحدة.

تُظهر النتائج تحسينًا كبيرًا في دقة الاستجابة من خلال SPG، بنسبة 3.6% في مجموعة بيانات GSM8K، و2.6% في MATH500، و18.4% في Countdown، و27.0% في Sudoku. هذه التحسينات تُبشر بمستقبل مشرق لاستخدام نماذج اللغة المسنّدة في العديد من التطبيقات.

إن الابتكار في نموذج SPG يمثل خطوة بارزة نحو تعزيز الاستفادة من الذكاء الاصطناعي في مجالات متعددة، ويعد بمزيد من التقدم في تقنيات التعلم الآلي. وبالتالي، يُثير هذا التساؤل: كيف يمكن أن يؤثر هذا التطور على مستقبل نماذج الذكاء الاصطناعي؟ دعونا نناقش ذلك معًا.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة