تواجه نماذج التحكم في الأفعال البصرية اللغوية (Vision-Language-Action) تحديات كبيرة في مهام التنفيذ المعقدة على المدى الطويل، على الرغم من أدائها الجيد في المهام قصيرة المدى. وفي دراسة حديثة، وجد الباحثون أن هذا الفشل لا يمكن حله فقط عن طريق تمديد طول السياق، بل يعود إلى وجود ثلاث نقاط ضعف متكررة في حلقات التنفيذ: الفجوة في الذاكرة، والفجوة في التحقق، وفجوة الاستجابة.
لذا، تم تقديم نموذج HELM كإطار عمل مستقل عن النموذج، يهدف إلى معالجة هذه الثغرات من خلال ثلاثة مكونات رئيسية:
1. وحدة الذاكرة الدورية (Episodic Memory Module - EMM) التي تقوم باسترجاع تاريخ المهام الرئيسية عبر إطارات المفاتيح المفهرسة بواسطة CLIP.
2. المُتحقق المُتعلم (Learned State Verifier - SV) الذي يُتوقع فشل التنفيذ قبل حدوثه بناءً على الملاحظة، والفعل، والأهداف الفرعية، والسياق المشروط بالذاكرة.
3. وحدة التحكم (Harness Controller - HC) التي تنفذ التراجع وإعادة التخطيط.
يعتبر SV هو العنصر المركزي في التعلم حيث يتفوق بشكل مستمر على الفحوصات القابلة للحكم القائم على القواعد وأساسيات عدم اليقين المتعددة، وتعتمد فعاليته بشكل حاسم على الوصول إلى الذاكرة الدورية. على مجموعة بيانات LIBERO-LONG، سجل نموذج HELM معدل نجاح في المهام بنسبة 81.5%، محققًا زيادة قدرها 23.1 نقطة مئوية مقارنةً بـ OpenVLA. بينما أدى تمديد نافذة السياق إلى H=32 إلى مكاسب محدودة بلغت 5.4 نقطة فقط.
علاوة على ذلك، حقق HELM أيضًا تحسينًا في الأداء على المدى الطويل في نموذج CALVIN وزيادة كبيرة في نجاح الاستجابة تحت الاضطرابات المنضبطة. تشمل الدراسات التحليلية وإزالة المكونات عزل مساهمة كل عنصر، وقد تم إصدار LIBERO-Recovery كبرتوكول استدراج الاضطرابات لتقييم استجابة الفشل في عمليات التنفيذ على المدى الطويل.
إن HELM يعيد تعريف الآفاق الممكنة للذكاء الاصطناعي في التحكم المعقد، مما يجعله ثورة في هذا المجال.
HELM: ثورة في الذاكرة المعززة للتحكم في الأفعال البصرية اللغوية
قدمت HELM نموذجًا جديدًا يغير قواعد اللعبة في مهام التحكم المعقدة من خلال معالجة الثغرات في الذاكرة والتنفيذ. التحسينات الكبيرة التي حققها سوف تحدث تأثيرًا كبيرًا في الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
