مدخل جديد لتطوير نماذج الذكاء الاصطناعي: تأثير تداخل بيانات التمرين بعد التدريب
تقدم دراسة حديثة رؤية جديدة حول كيفية تأثير تداخل بيانات التمرين بين تقنيتي تحسين السياسات النسبية (GRPO) والتدريب الناعم (SFT) على دقة النماذج. النتائج توضح بأن الحد من هذا التداخل يحقق نتائج أفضل بكثير.
في عالم الذكاء الاصطناعي، يبقى تحسين الأداء وتقديم نتائج دقيقة هاجساً يراود الباحثين والمطورين. في دراسة مثيرة، استكشف فريق من الباحثين تأثير تداخل بيانات التدريب بين تقنيتي تحسين السياسات النسبية (Group Relative Policy Optimization - GRPO) والتدريب الناعم (Supervised Fine-Tuning - SFT) على نموذج Qwen3-8B.
تحت ظروف متعددة، تم تحليل كيفية تأثير تداخل بيانات التدريب، حيث تم تقسيم التجارب إلى أربعة أنماط للتمرين تتراوح من نموذج أساسي إلى تكوينات مختلفة من SFT وGRPO بمعدلات تداخل مختلفة، من 0% إلى 100%.
المفاجأة كانت في النتائج: عند الاحتفاظ بفصل بيانات SFT وGRPO، كانت النتائج دائماً تفوق الحالات التي تتضمن تداخلاً كاملاً، وذلك دون أي تكلفة حسابية إضافية.
تم تقييم الأداء على مجموعة من الاختبارات مثل Gaokao-Formal وPutnamBench، حيث أظهرت النتائج نمواً ملحوظاً في دقة الترجمة الدلالية عند وصول التداخل إلى 0%، حيث أظهرت GRPO تحسناً بنسبة 10.4% مقارنةً بـ SFT فقط في اختبار Gaokao. دون ذلك، عند تداخل البيانات بنسبة 100%، تظل المقاييس بدون تغير، مما يجعل مرحلة GRPO غير ضرورية.
المثير للاهتمام أن التحليلات أظهرت فجوات دلالية تتجاوز 30 نقطة مئوية في الأداء، وهي فجوة لم تكن واضحة عند الاعتماد فقط على تقييمات الترجمة.
هذه الدراسة تُعد الأولى من نوعها للتحقيق بشكل منهجي في تأثير تداخل بيانات SFT وGRPO كمعاملات للتدريب، مما يسلط الضوء على كيفية تغير سلوك النماذج بناءً على درجة مشاركة البيانات بين مراحل التدريب. في ضوء هذه النتائج، يستعد المجتمع العلمي لإعادة التفكير في استراتيجيات تطوير النماذج المستقبلية.
تحت ظروف متعددة، تم تحليل كيفية تأثير تداخل بيانات التدريب، حيث تم تقسيم التجارب إلى أربعة أنماط للتمرين تتراوح من نموذج أساسي إلى تكوينات مختلفة من SFT وGRPO بمعدلات تداخل مختلفة، من 0% إلى 100%.
المفاجأة كانت في النتائج: عند الاحتفاظ بفصل بيانات SFT وGRPO، كانت النتائج دائماً تفوق الحالات التي تتضمن تداخلاً كاملاً، وذلك دون أي تكلفة حسابية إضافية.
تم تقييم الأداء على مجموعة من الاختبارات مثل Gaokao-Formal وPutnamBench، حيث أظهرت النتائج نمواً ملحوظاً في دقة الترجمة الدلالية عند وصول التداخل إلى 0%، حيث أظهرت GRPO تحسناً بنسبة 10.4% مقارنةً بـ SFT فقط في اختبار Gaokao. دون ذلك، عند تداخل البيانات بنسبة 100%، تظل المقاييس بدون تغير، مما يجعل مرحلة GRPO غير ضرورية.
المثير للاهتمام أن التحليلات أظهرت فجوات دلالية تتجاوز 30 نقطة مئوية في الأداء، وهي فجوة لم تكن واضحة عند الاعتماد فقط على تقييمات الترجمة.
هذه الدراسة تُعد الأولى من نوعها للتحقيق بشكل منهجي في تأثير تداخل بيانات SFT وGRPO كمعاملات للتدريب، مما يسلط الضوء على كيفية تغير سلوك النماذج بناءً على درجة مشاركة البيانات بين مراحل التدريب. في ضوء هذه النتائج، يستعد المجتمع العلمي لإعادة التفكير في استراتيجيات تطوير النماذج المستقبلية.

