في عصر الذكاء الاصطناعي المتقدم، تمثل نماذج الرؤية واللغة (Vision-Language Models) واحدة من الابتكارات الرائدة التي تُحدث ثورة في قدرة الوكلاء الذكيين على الفهم والتفاعل مع البيئات المحيطة بهم. ومع ذلك، فإن هذه النماذج، على الرغم من أدائها القوي، تواجه تحديات كبيرة في فهم الحياة البيئية وطبيعة التفاعل مع العناصر المحيطة.
للتغلب على هذه التحديات، تم تقديم إطار عمل جديد يُعرف باسم "نموذج الوكيل المدمج لفهم البيئة" (Environmental Understanding Embodied Agent - EUEA)، والذي يهدف إلى تحسين أربع مهارات أساسية:
1. **إدراك الأجسام**: التعرف على الأجسام ذات الصلة أثناء التفاعل.
2. **تخطيط المهام**: توليد أهداف فرعية لتحقيق التفاعل الفعّال.
3. **فهم الإجراءات**: تقييم احتمال نجاح الإجراءات المختلفة.
4. **التعرف على الأهداف**: تحديد مدى إنجاز الأهداف المرسومة.
يساعد تقوية هذه المهارات على تحقيق تنفيذ أكثر موثوقية للمهام، مما يعزز قدرة الوكلاء على اتباع التعليمات. كما تم إدخال خطوة استرداد، تُستخدم لأخذ عينات من إجراءات بديلة لتصحيح حالات الفشل، إلى جانب مرحلة تحسين السياسات النسبية (Group Relative Policy Optimization - GRPO) التي تضبط التنبؤات غير المتسقة بالمهارات.
عبر الاستخدام في مهام ALFRED، حقق النموذج تحسناً ملحوظاً قدره 8.86% في معدل النجاح المتوسط مقارنة بالنموذج التقليدي. وعززت خطوات الاسترداد وGRPO الأداء بمقدار إضافي بلغ 3.03%. تكشف التحليلات الخاصة بمستوى المهارات عن القيود الرئيسية لدى نماذج الرؤية واللغة، سواء المفتوحة أو المغلقة المصدر، وتحدد القدرات اللازمة لتفاعل فعّال بين الوكلاء وبيئاتهم.
إن انتهاج هذا النموذج يمثل خطوة فاصلة نحو تحسين قدرات الذكاء الاصطناعي وإعداد الوكلاء الذكيين لمواجهة التحديات البيئية بخطوات أكثر نجاحاً وذكاءً.
ثورة الذكاء الاصطناعي: نموذج فهم بيئي بالمزيج بين الرؤية واللغة لوكلاء الأجيال القادمة
تقدم الأبحاث الجديدة نموذجاً متقدماً لفهم البيئة باستخدام الذكاء الاصطناعي، يركز على تحسين أداء الوكلاء الذكيين في التفاعل مع محيطهم. تطوير هذا النموذج يعد خطوة كبيرة نحو تحقيق إنجازات مثيرة في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
