توقعات مستقبلية مجمعة: ثورة في تقييم قدرات الذكاء الاصطناعي

يعد التنبؤ بالأحداث المستقبلية مهارة أساسية للأنظمة الذكية العامة التي تتخطيط أو تعمل عبر مستويات متعددة من التجريد. لكن، يبقى تقييم مدى "صحة" التوقعات تحديًا بسبب عدم اليقين الكامن في المستقبل. وهذا يفتح المجال أمام الحاجة إلى تطوير أطر جديدة للتقييم، وهو ما قدمه الباحثون من خلال إطار تقييم موحد لتقدير قدرات التوقعات في نماذج الرؤية المجمدة (Frozen Vision Models) عبر مهام ومستويات تجريد متعددة.

تعتمد هذه الإطار على تقييم المسارات بأكملها واعتماد مقاييس توزيعية (Distributional Metrics) التي تعكس بشكل أفضل الطبيعة متعددة الأشكال لنتائج المستقبل. يتم هنا تدريب نماذج الانتشار الكامنة (Latent Diffusion Models) للتنبؤ بالميزات المستقبلية مباشرة في فضاء تمثيل هذه النماذج، حيث يتم فك تشفير هذه التنبؤات عبر قراءات خفيفة الوزن ومخصصة للمهام.

تم تطبيق هذا الإطار على تسع نماذج رؤية متنوعة، تشمل نماذج ما قبل التدريب للصورة والفيديو، والأهداف التباينية والإنشائية، مع أو بدون إشراف لغوي. وقد تم تقييم هذه النماذج على أربع مهام تتراوح بين توقعات بكسل منخفضة المستوى وتحركات كائنات عالية المستوى. أظهرت النتائج أن أداء التوقعات يرتبط بقوة بجودة الإدراك وأن قدرات نماذج توليد الفيديو تعادل أو تتجاوز تلك المسبق تدريبها في أنظمة التغطية عبر جميع مستويات التجريد. والجدير بالذكر أن الإشراف اللغوي لم يحسن باستمرار من دقة التوقعات، في المقابل كانت النماذج المدربة على الفيديو تتفوق باستمرار على تلك المعتمدة على الصور.

توقعات مستقبلية مجمعة: ثورة في تقييم قدرات الذكاء الاصطناعي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!