تحكم بصري متفرق (VS2): تقدير غير مُشرف لتصنيف الصور باستخدام متجهات موجهة بالإرشادات النادرة
يقدم أسلوب VS2 تقنية مبتكرة لتحسين دقة تصنيف الصور بدون الحاجة إلى بيانات مُعَلَّمة، مما يجعله خياراً جذاباً للمستخدمين. يقلل هذا المنهج من التعقيدات ويعزز من الكفاءة، مُحققاً نتائج مثيرة في دقة التصنيف.
في عالم الذكاء الاصطناعي، يعد تحسين أداء نماذج رؤية الآلة بدون الحاجة إلى بيانات مُعَلَّمة هدفًا جذابًا، لكنه مليء بالتحديات. هنا يأتي دور تقنية "تحكم بصري متفرق" (Visual Sparse Steering - VS2) التي تقدم طريقة خفيفة تتميز بقدرتها على التكيف دون الحاجة إلى تحديث أوزان النموذج أو استخدام بيانات مُعَلَّمة.
تستند تقنية VS2 إلى فكرة استخلاص ميزات نادرة من خلال مشفر تلقائي نادر (Sparse Autoencoder - SAE) تم تدريبه على بيانات غير مُعَلَّمة. من خلال ذلك، يتم بناء متجه إرشادي يستند إلى ميزات الانتشار التي تم استخراجها. لهذا الأسلوب ثلاث مزايا رئيسية:
1. مساحة تدخل على مستوى الميزات في تمثيلات SAE النادرة.
2. كفاءة عالية، حيث يتطلب الأمر فقط إجراء عملية تمرير للأمام (Forward Pass) بدون الحاجة إلى تحسين في وقت الاختبار أو عودة الانتشار (Backpropagation).
3. وجود تشخيص موثوق بناءً على خسارة إعادة بناء SAE، مما يتيح تخطي التوجيه عندما تكون إعادة البناء ضعيفة، مما يضمن أمان العودة إلى النموذج الأساسي.
أظهرت التجارب عبر مجموعات بيانات مثل CIFAR-100 وCUB-200 وTiny-ImageNet مع استخدام عمودين من أطر CLIP (ViT-B/32، ViT-B/16) أن تقنية VS2 تحسن دقة التصنيف المباشر (Zero-Shot Top-1 Accuracy) بنسبة تتراوح بين 3.45-4.12%، و0.93-1.08%، و1.50-1.84% على التوالي، مع الحفاظ على كفاءة العملية وزيادة ضئيلة في الحمل الحاسوبي.
تشير التحليلات القائمة على طريقة الاسترجاع إلى وجود إمكانية واسعة للتحسين إذا تم اختيار الميزات النادرة ذات الصلة بالمهام بشكل موثوق، مما يحفز بحوثًا مستقبلية في تعزيز اختيار الميزات لقيادة توجيه اختبار تفسيري وفعال.
تستند تقنية VS2 إلى فكرة استخلاص ميزات نادرة من خلال مشفر تلقائي نادر (Sparse Autoencoder - SAE) تم تدريبه على بيانات غير مُعَلَّمة. من خلال ذلك، يتم بناء متجه إرشادي يستند إلى ميزات الانتشار التي تم استخراجها. لهذا الأسلوب ثلاث مزايا رئيسية:
1. مساحة تدخل على مستوى الميزات في تمثيلات SAE النادرة.
2. كفاءة عالية، حيث يتطلب الأمر فقط إجراء عملية تمرير للأمام (Forward Pass) بدون الحاجة إلى تحسين في وقت الاختبار أو عودة الانتشار (Backpropagation).
3. وجود تشخيص موثوق بناءً على خسارة إعادة بناء SAE، مما يتيح تخطي التوجيه عندما تكون إعادة البناء ضعيفة، مما يضمن أمان العودة إلى النموذج الأساسي.
أظهرت التجارب عبر مجموعات بيانات مثل CIFAR-100 وCUB-200 وTiny-ImageNet مع استخدام عمودين من أطر CLIP (ViT-B/32، ViT-B/16) أن تقنية VS2 تحسن دقة التصنيف المباشر (Zero-Shot Top-1 Accuracy) بنسبة تتراوح بين 3.45-4.12%، و0.93-1.08%، و1.50-1.84% على التوالي، مع الحفاظ على كفاءة العملية وزيادة ضئيلة في الحمل الحاسوبي.
تشير التحليلات القائمة على طريقة الاسترجاع إلى وجود إمكانية واسعة للتحسين إذا تم اختيار الميزات النادرة ذات الصلة بالمهام بشكل موثوق، مما يحفز بحوثًا مستقبلية في تعزيز اختيار الميزات لقيادة توجيه اختبار تفسيري وفعال.

