يبدو أن نماذج الذكاء الاصطناعي (AI) قد وصلت إلى أفق جديد من التطور، حيث حققت تقدمًا ملحوظًا فيما يتعلق بالذكاء المركب. ومع ذلك، تشير الدراسات الأخيرة إلى أن هذه النماذج تعاني من صعوبات في مقياس التفكير المركب، حيث تظهر أداءً يتساوى أو أقل من الأداء العشوائي في بعض الحالات.
إعادة تقييم القدرات
لمعالجة هذه المشكلة، تم تقديم مفهوم **مقياس المزاوجة الجماعية** (group matching score)، الذي يعد بديلاً أكثر دقة في قياس قدرة النماذج. من خلال هذا المقياس الجديد، تمكّن نموذج **SigLIP-B16** من تحقيق نتائج فاقت جميع النتائج السابقة، بينما استطاع نموذج **GPT-4.1** تحقيق نتائج تتجاوز الأداء البشري المقدر في منصات مثل **Winoground**.
تقديم TTM
استنادًا إلى هذه الاكتشافات، تم الاقتراح بتطبيق تقنية **TTM** (Test-Time Matching) التي تعتمد على خوارزمية تنافسية ذاتية التحسين، مما يعزز أداء النماذج دون الحاجة إلى إشراف خارجي. هذا التحسن لم يكن مجرد تحسين طفيف، بل شكل قفزة نوعية: على سبيل المثال، استطاع TTM أن يتفوق على GPT-4.1 في اختبارات **MMVP-VLM**، مما أرسى معيارًا جديدًا في الذكاء الاصطناعي.
أداء متفوق
تظهر التجارب أن TTM يعزز الأداء بوضوح حتى في تقييمات لا تعتمد على مقياس تأثيرات مرتبطة أو هياكل جماعية. وقد أظهرت النتائج زيادة نسبية تصل إلى 85.7% في مجموعات البيانات الصعبة، مثل **WhatsUp**. من خلال 16 نموذج بيانات مختلف، أثبتت التجارب أن TTM يقدم تحسينًا مستمرًا في الأداء=
أسئلة للنقاش
كيف ترى مستقبل الذكاء الاصطناعي مع هذه التحسينات الجديدة؟ هل تعتقد أن TTM يمكن أن يفتح أبوابًا جديدة للتطبيقات العملية في مجالات متعددة؟
