ثورة الذكاء الاصطناعي: نموذج فهم بيئي بالمزيج بين الرؤية واللغة لوكلاء الأجيال القادمة

في عصر الذكاء الاصطناعي المتقدم، تمثل نماذج الرؤية واللغة (Vision-Language Models) واحدة من الابتكارات الرائدة التي تُحدث ثورة في قدرة الوكلاء الذكيين على الفهم والتفاعل مع البيئات المحيطة بهم. ومع ذلك، فإن هذه النماذج، على الرغم من أدائها القوي، تواجه تحديات كبيرة في فهم الحياة البيئية وطبيعة التفاعل مع العناصر المحيطة.

للتغلب على هذه التحديات، تم تقديم إطار عمل جديد يُعرف باسم "نموذج الوكيل المدمج لفهم البيئة" (Environmental Understanding Embodied Agent - EUEA)، والذي يهدف إلى تحسين أربع مهارات أساسية:
1. **إدراك الأجسام**: التعرف على الأجسام ذات الصلة أثناء التفاعل.
2. **تخطيط المهام**: توليد أهداف فرعية لتحقيق التفاعل الفعّال.
3. **فهم الإجراءات**: تقييم احتمال نجاح الإجراءات المختلفة.
4. **التعرف على الأهداف**: تحديد مدى إنجاز الأهداف المرسومة.

يساعد تقوية هذه المهارات على تحقيق تنفيذ أكثر موثوقية للمهام، مما يعزز قدرة الوكلاء على اتباع التعليمات. كما تم إدخال خطوة استرداد، تُستخدم لأخذ عينات من إجراءات بديلة لتصحيح حالات الفشل، إلى جانب مرحلة تحسين السياسات النسبية (Group Relative Policy Optimization - GRPO) التي تضبط التنبؤات غير المتسقة بالمهارات.

عبر الاستخدام في مهام ALFRED، حقق النموذج تحسناً ملحوظاً قدره 8.86% في معدل النجاح المتوسط مقارنة بالنموذج التقليدي. وعززت خطوات الاسترداد وGRPO الأداء بمقدار إضافي بلغ 3.03%. تكشف التحليلات الخاصة بمستوى المهارات عن القيود الرئيسية لدى نماذج الرؤية واللغة، سواء المفتوحة أو المغلقة المصدر، وتحدد القدرات اللازمة لتفاعل فعّال بين الوكلاء وبيئاتهم.

إن انتهاج هذا النموذج يمثل خطوة فاصلة نحو تحسين قدرات الذكاء الاصطناعي وإعداد الوكلاء الذكيين لمواجهة التحديات البيئية بخطوات أكثر نجاحاً وذكاءً.

ثورة الذكاء الاصطناعي: نموذج فهم بيئي بالمزيج بين الرؤية واللغة لوكلاء الأجيال القادمة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!