ثورة جديدة في البحث عن الأشخاص عبر الكاميرات المتعددة: ARGOS!

في تطور مذهل في عالم الذكاء الاصطناعي، تم تقديم إطار ARGOS، الذي يعد الأول من نوعه في مجال البحث عن الأشخاص عبر كاميرات متعددة. يقوم ARGOS بإعادة تشكيل هذه المهمة كمشكلة تعتمد على التفكير التفاعلي، حيث يُعتبر العميل (Agent) هو المحور الرئيسي الذي يجب عليه التخطيط، وطرح الأسئلة، وإزالة الخيارات المتاحة تحت ظروف عدم توازن المعلومات.

ما يشد انتباهنا هو أن عميل ARGOS يتلقى بيانًا غامضًا من شاهد عيان، ويكون ملزماً باتخاذ قرارات حاسمة حول ما يجب أن يسأل، ومتى يستدعي الأدوات المكانية أو الزمنية، وكيفية تفسير الردود الغامضة، وذلك ضمن ميزانية زمنية معينة.

تعتمد تلك الاستراتيجية على ما يعرف بـ Spatio-Temporal Topology Graph (STTG)، الذي يشفر اتصالات الكاميرات وأوقات الانتقال بالتجربة. ويتضمن الإطار الجديد 2691 مهمة عبر 14 سيناريو واقعي، مقسمة إلى ثلاث مسارات تقدمية: الإدراك الدلالي (Who)، التفكير المكاني (Where)، والتفكير الزمني (When).

تشير تجارب مع أربعة نماذج لغات ضخمة (Large Language Models) إلى أن التحدي ما زال بعيدًا عن الحل الكامل، حيث سجل أفضل أداءً (TWS) نقاط 0.383 في المسار الثاني و0.590 في المسار الثالث. ووفقا للدراسات، فإن إزالة الأدوات الخاصة بالنطاق يمكن أن تخفض الدقة حتى 49.6 نقطة مئوية!

لا شك أن ARGOS يمثل خطوة كبيرة نحو تحسين آليات البحث عن الأشخاص بكفاءة أكبر، مما يعكس التقدم المذهل الذي تحقق في مجالات عدة من الذكاء الاصطناعي. في عالم يتوق دوماً إلى الدقة والتفاعل الفعال، يبدو أن هذه المنصة لديها مستقبل مشرق.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.

ثورة جديدة في البحث عن الأشخاص عبر الكاميرات المتعددة: ARGOS!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!