في عالم الذكاء الاصطناعي، يعتبر التعلم التعزيزي مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) أحد أساليب التعلم الأساسية التي تلعب دورًا حيويًا في تحسين النماذج الضخمة. لكن التحديات تظل قائمة؛ فالتعلم التعزيزي يواجه صعوبات عند التعامل مع الهيكليات الهندسية المدربة مسبقًا. هنا يأتي دور GeoRA (التحسين الهرمي القائم على الهندسة) كحل مبتكر.
تُعتبر طرق التكيف ذات الرتبة المنخفضة (Low-Rank Adaptation) مثل PiSSA، متخصصة للغاية في التهيئة الدقيقة المراقبة (Supervised Fine-Tuning - SFT) ولا تأخذ بعين الاعتبار الديناميات المختلفة للتعلم التعزيزي. بينما التهيئة المباشرة للمساحات الفرعية ذات المعاملات المتفرقة تعتبر غير فعالة على الأجهزة الحديثة. GeoRA تأتي لتجاوز هذه الحواجز من خلال الاستفادة من الهيكل القابل للضغط للمساحة الفرعية لتحديث التعلم التعزيزي، حيث تستخرج اتجاهاتها الرئيسية باستخدام تحليل القيمة المفردة (Singular Value Decomposition - SVD).
من خلال تجميد بعض المكونات كمرساة هيكلية خلال مرحلة التدريب، يحتفظ GeoRA بالهيكل المدرب مسبقًا، مما يتيح حسابات كثيفة وفعالة. لقد أثبتت التجارب على نماذج Qwen وLlama، التي تتراوح أبعادها من 1.5B إلى 32B، أن GeoRA تتفوق باستمرار على المعايير التقليدية في مجالات الرياضيات والطب والترميز، مما يظهر قوة كبيرة في التعميم وتقليل فقدان المعلومات في المهام خارج المجال. كيف يمكن لهذه الابتكارات أن تؤثر على مستقبل التعلم الذكي؟
GeoRA: ثورة في تحسين التعلم التعزيزي مع التركيز على الهندسة!
يقدم نظام GeoRA طريقة مبتكرة لتحسين التعلم التعزيزي مع المكافآت القابلة للتحقق، مع التركيز على الحفاظ على الهيكليات الهندسية المدربة مسبقًا. يحقق GeoRA أداءً متميزًا يتفوق على الطرق التقليدية في مختلف المجالات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
