GeoRA: ثورة في تحسين التعلم التعزيزي مع التركيز على الهندسة!

في عالم الذكاء الاصطناعي، يعتبر التعلم التعزيزي مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) أحد أساليب التعلم الأساسية التي تلعب دورًا حيويًا في تحسين النماذج الضخمة. لكن التحديات تظل قائمة؛ فالتعلم التعزيزي يواجه صعوبات عند التعامل مع الهيكليات الهندسية المدربة مسبقًا. هنا يأتي دور GeoRA (التحسين الهرمي القائم على الهندسة) كحل مبتكر.

تُعتبر طرق التكيف ذات الرتبة المنخفضة (Low-Rank Adaptation) مثل PiSSA، متخصصة للغاية في التهيئة الدقيقة المراقبة (Supervised Fine-Tuning - SFT) ولا تأخذ بعين الاعتبار الديناميات المختلفة للتعلم التعزيزي. بينما التهيئة المباشرة للمساحات الفرعية ذات المعاملات المتفرقة تعتبر غير فعالة على الأجهزة الحديثة. GeoRA تأتي لتجاوز هذه الحواجز من خلال الاستفادة من الهيكل القابل للضغط للمساحة الفرعية لتحديث التعلم التعزيزي، حيث تستخرج اتجاهاتها الرئيسية باستخدام تحليل القيمة المفردة (Singular Value Decomposition - SVD).

من خلال تجميد بعض المكونات كمرساة هيكلية خلال مرحلة التدريب، يحتفظ GeoRA بالهيكل المدرب مسبقًا، مما يتيح حسابات كثيفة وفعالة. لقد أثبتت التجارب على نماذج Qwen وLlama، التي تتراوح أبعادها من 1.5B إلى 32B، أن GeoRA تتفوق باستمرار على المعايير التقليدية في مجالات الرياضيات والطب والترميز، مما يظهر قوة كبيرة في التعميم وتقليل فقدان المعلومات في المهام خارج المجال. كيف يمكن لهذه الابتكارات أن تؤثر على مستقبل التعلم الذكي؟

GeoRA: ثورة في تحسين التعلم التعزيزي مع التركيز على الهندسة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!