في عالم الذكاء الاصطناعي (AI)، أحدثت نماذج الرؤية واللغة (Vision-Language Models - VLMs) تقدمًا كبيرًا في فهم الروبوتات للمهام المعقدة، ولكن غالبًا ما تنتج هذه النماذج تسلسلات أفعال غير صحيحة وكافية. هنا يأتي دور VeriGraph، الإطار الثوري الذي يعد بتغيير قواعد اللعبة في تخطيط مهام الروبوتات.
تجمع VeriGraph بين قوة نماذج VLMs وفحص إمكانية تنفيذ الأفعال. يستخدم هذا النظام الجديد الرسوم البيانية للمشاهد (Scene Graphs) كممثل وسيط لالتقاط الأشياء الرئيسية والعلاقات المكانية مما يسهل التحقق الدقيق من الخطط وإعادة صياغتها عند الحاجة. كيف يعمل ذلك؟ يبدأ النظام بإنشاء رسم بياني للمشهد من الصور المدخلة، ويستخدمه للتحقق من تسلسلات الأفعال الناتجة عن مخطط المهام المعتمد على نماذج اللغات الكبيرة (Large Language Models - LLMs)، مما يضمن احترام القيود وضمان قابلية تنفيذ الأفعال المقررة.
تظهر النتائج أن النهج الذي تتبعه VeriGraph يحقق معدلات إتمام مهام عالية في سيناريوهات متنوعة، حيث يتفوق على الأساليب التقليدية بنسبة 58% في المهام القائمة على اللغة، و56% في مهام الأحجيات، و30% في المهام القائمة على الصور. النتائج النوعية والكود متاحة على [رابط الموقع الرسمي لVGI](https://verigraph-agent.github.io).
تدعو هذه التطورات المثير للدهشة الباحثين والمهتمين إلى التفكير: كيف يمكن للتكنولوجيا الحديثة أن تغير من طريقة تعلم وتحسين الروبوتات؟ ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في تخطيط المهام الروبوتية: VeriGraph يغير اللعبة!
عرضت VeriGraph إطارًا جديدًا يجمع بين نماذج الرؤية واللغة لضمان خطط تنفيذية قابلة للتحقق للروبوتات. تفوق هذا النظام الجديد في تحسين معدلات إكمال المهام بشكل ملحوظ في سيناريوهات متعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
