الذكاء الاصطناعي يتجاوز الحدود: ثورة الحسابات البصرية عبر نماذج اللغات الضخمة

في خطوة جديدة ورائدة نحو تحسين قدرات الذكاء الاصطناعي، أظهرت الأبحاث الأخيرة أن التعلم المعزز (Reinforcement Learning) بعد التدريب يلعب دوراً حاسماً في تعزيز قدرات نماذج اللغات الضخمة (Large Language Models) في مجالات البرمجة والرياضيات. ومع ذلك، لا تزال القدرة على التعامل مع الحسابات البصرية (Visual Semantic Arithmetic) وفهم العلاقات من الصور بحاجة إلى استكشاف أعمق.

توضّح النظرة التقليدية لحساب العلاقات، مثل المعادلة "الملك" - "الرجل" + "المرأة" = "الملكة"، كيفية استخدام التفكير العلاقي. لكن عند استبدال النص بصور "الملك" و"الرجل"، ينخفض الأداء بشكل ملحوظ، حيث يتطلب الأمر معرفة شائعة واستخراج مفاهيم مختصرة من تفاصيل بصرية غير ذات صلة.

تعد هذه القدرة مهمة جداً لروبوتات الخدمة والمنزل في البيئات غير المهيكلة، حيث يتوجب على الروبوتات استنتاج العلاقات الدلالية بين الكائنات والعمليات. على سبيل المثال، يمكن التعرف من الصور على أن "البودرة" و"الكعكة" مرتبطتان بعبارة "مصنوع من"، مما يعزز القدرة على التفاعل مع الأدوات وتعميم المهام وتحسين التفكير الدلالي.

تعتمد الأبحاث السابقة في معالجة الحسابات الدلالية على فك شيفرة ميزات الصور بعد العمليات الرياضية، لكن هذه الأساليب تعاني من فجوات بين الوحدات وتفتقر إلى التقييم المنهجي. لتجاوز هذه المشكلات، صاغ الباحثون مهمتين جديدتين: الطرح ذو الحدين والعمليات الثلاثية، وقاموا بإنشاء مجموعة بيانات علاقة الصورة (Image-Relation-Pair Dataset) للاختبار.

كما اقترحوا طريقة جديدة تسمى تحسين المعزز لحسابات الدلالية (Semantic Arithmetic Reinforcement Fine-Tuning)، والتي تخضع النماذج اللغوية الرؤية الكبيرة (Large Vision-Language Models) لتدريب إضافي باستخدام دالة قابلة للتحقق وتحسين السياسة النسبية الجماعية (Group Relative Policy Optimization). تحقيقاً للنتائج الرائدة على مجموعة بيانات IRPD ومجموعة بيانات Visual7W-Telling، تعزز هذه الطريقة قدرة LVLM على تأصيل التفكير الرمزي في إدراك الصور، مما يحسن اتخاذ القرارات وتكييف الأدوات وتفاعل الإنسان-الروبوت في البيئات المعقدة.

يمكن تحميل مجموعات البيانات وشفرة المصدر من المواد التكميلية.

الذكاء الاصطناعي يتجاوز الحدود: ثورة الحسابات البصرية عبر نماذج اللغات الضخمة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم الإعلانات: جوجل تدمج الإعلانات في مساعدها الذكي Gemini!

ثورة جديدة في الذكاء الاصطناعي: تقييم استخدام الذاكرة الاستراتيجية في حوارات الشخصيات الافتراضية

مفاجأة في عالم السيارات الذاتية: استجابة الطوارئ تكتشف تدهور تقنيات وايمو