في عالم التعلم الآلي (Machine Learning)، تظل الابتكارات وتحسينات الأداء محط أنظار الباحثين. وقد أظهرت الدراسات الأخيرة أن **طريقة SFT-ثم-RL** (Supervised Fine-Tuning then Reinforcement Learning) تتفوق بشكل ملحوظ على أساليب السياسة المختلطة (Mixed-Policy Methods) في مهام الاستدلال الخاصة بالنماذج اللغوية الكبيرة (Large Language Models - LLM).
اكتشافات مذهلة!
تشير الأبحاث إلى أن العديد من الدراسات الحديثة اعتمدت على أسس خاطئة أدت إلى تدني الأداء، بسبب وجود بعض الأخطاء في الأساليب المستخدمة. منها خطأ في **DeepSpeed**، الذي تسبّب في إسقاط الميكرو-باكتس (Micro-batches) وبذلك يؤثر سلبًا على النتائج.
إلى جانب ذلك، تم اكتشاف وجود خلل في **OpenRLHF** يتعلق بوزن الخسائر (Loss Aggregation Bug)، مما ساهم بشكل إضافي في تقليل كفاءة التعلم.
أداء متفوق!
بعد تصحيح هذه الأخطاء، أصبحت **طريقة SFT-ثم-RL** تتفوق بمقدار **3.8 نقاط** على معايير الرياضيات باستخدام نموذج **Qwen2.5-Math-7B**، وبفارق مذهل يصل إلى **22.2 نقطة** مع نموذج **Llama-3.1-8B**. بل حتى نسخ مختصرة لهذه الطريقة التي تتضمن 50 خطوة فقط من التعلم القائم على التعزيز (Reinforcement Learning) قد تفوقت على الأساليب الأخرى أيضاً!
هل يمكن أن نشهد مزيدًا من التحسينات؟
تشير هذه النتائج إلى إمكانية تحقيق الكثير من التطورات الإضافية في هذا المجال، ما يفتح أبوابًا جديدة للابتكار. كيف ترى مستقبل التعلم الآلي في ظل هذه التحولات؟
