تحكم بصري متفرق (VS2): تقدير غير مُشرف لتصنيف الصور باستخدام متجهات موجهة بالإرشادات النادرة

في عالم الذكاء الاصطناعي، يعد تحسين أداء نماذج رؤية الآلة بدون الحاجة إلى بيانات مُعَلَّمة هدفًا جذابًا، لكنه مليء بالتحديات. هنا يأتي دور تقنية "تحكم بصري متفرق" (Visual Sparse Steering - VS2) التي تقدم طريقة خفيفة تتميز بقدرتها على التكيف دون الحاجة إلى تحديث أوزان النموذج أو استخدام بيانات مُعَلَّمة.

تستند تقنية VS2 إلى فكرة استخلاص ميزات نادرة من خلال مشفر تلقائي نادر (Sparse Autoencoder - SAE) تم تدريبه على بيانات غير مُعَلَّمة. من خلال ذلك، يتم بناء متجه إرشادي يستند إلى ميزات الانتشار التي تم استخراجها. لهذا الأسلوب ثلاث مزايا رئيسية:

1. مساحة تدخل على مستوى الميزات في تمثيلات SAE النادرة.
2. كفاءة عالية، حيث يتطلب الأمر فقط إجراء عملية تمرير للأمام (Forward Pass) بدون الحاجة إلى تحسين في وقت الاختبار أو عودة الانتشار (Backpropagation).
3. وجود تشخيص موثوق بناءً على خسارة إعادة بناء SAE، مما يتيح تخطي التوجيه عندما تكون إعادة البناء ضعيفة، مما يضمن أمان العودة إلى النموذج الأساسي.

أظهرت التجارب عبر مجموعات بيانات مثل CIFAR-100 وCUB-200 وTiny-ImageNet مع استخدام عمودين من أطر CLIP (ViT-B/32، ViT-B/16) أن تقنية VS2 تحسن دقة التصنيف المباشر (Zero-Shot Top-1 Accuracy) بنسبة تتراوح بين 3.45-4.12%، و0.93-1.08%، و1.50-1.84% على التوالي، مع الحفاظ على كفاءة العملية وزيادة ضئيلة في الحمل الحاسوبي.

تشير التحليلات القائمة على طريقة الاسترجاع إلى وجود إمكانية واسعة للتحسين إذا تم اختيار الميزات النادرة ذات الصلة بالمهام بشكل موثوق، مما يحفز بحوثًا مستقبلية في تعزيز اختيار الميزات لقيادة توجيه اختبار تفسيري وفعال.

تحكم بصري متفرق (VS2): تقدير غير مُشرف لتصنيف الصور باستخدام متجهات موجهة بالإرشادات النادرة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!