HELM: ثورة في الذاكرة المعززة للتحكم في الأفعال البصرية اللغوية

تواجه نماذج التحكم في الأفعال البصرية اللغوية (Vision-Language-Action) تحديات كبيرة في مهام التنفيذ المعقدة على المدى الطويل، على الرغم من أدائها الجيد في المهام قصيرة المدى. وفي دراسة حديثة، وجد الباحثون أن هذا الفشل لا يمكن حله فقط عن طريق تمديد طول السياق، بل يعود إلى وجود ثلاث نقاط ضعف متكررة في حلقات التنفيذ: الفجوة في الذاكرة، والفجوة في التحقق، وفجوة الاستجابة.

لذا، تم تقديم نموذج HELM كإطار عمل مستقل عن النموذج، يهدف إلى معالجة هذه الثغرات من خلال ثلاثة مكونات رئيسية:
1. وحدة الذاكرة الدورية (Episodic Memory Module - EMM) التي تقوم باسترجاع تاريخ المهام الرئيسية عبر إطارات المفاتيح المفهرسة بواسطة CLIP.
2. المُتحقق المُتعلم (Learned State Verifier - SV) الذي يُتوقع فشل التنفيذ قبل حدوثه بناءً على الملاحظة، والفعل، والأهداف الفرعية، والسياق المشروط بالذاكرة.
3. وحدة التحكم (Harness Controller - HC) التي تنفذ التراجع وإعادة التخطيط.

يعتبر SV هو العنصر المركزي في التعلم حيث يتفوق بشكل مستمر على الفحوصات القابلة للحكم القائم على القواعد وأساسيات عدم اليقين المتعددة، وتعتمد فعاليته بشكل حاسم على الوصول إلى الذاكرة الدورية. على مجموعة بيانات LIBERO-LONG، سجل نموذج HELM معدل نجاح في المهام بنسبة 81.5%، محققًا زيادة قدرها 23.1 نقطة مئوية مقارنةً بـ OpenVLA. بينما أدى تمديد نافذة السياق إلى H=32 إلى مكاسب محدودة بلغت 5.4 نقطة فقط.

علاوة على ذلك، حقق HELM أيضًا تحسينًا في الأداء على المدى الطويل في نموذج CALVIN وزيادة كبيرة في نجاح الاستجابة تحت الاضطرابات المنضبطة. تشمل الدراسات التحليلية وإزالة المكونات عزل مساهمة كل عنصر، وقد تم إصدار LIBERO-Recovery كبرتوكول استدراج الاضطرابات لتقييم استجابة الفشل في عمليات التنفيذ على المدى الطويل.

إن HELM يعيد تعريف الآفاق الممكنة للذكاء الاصطناعي في التحكم المعقد، مما يجعله ثورة في هذا المجال.

HELM: ثورة في الذاكرة المعززة للتحكم في الأفعال البصرية اللغوية

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!