🔬 أبحاث1 دقائق للقراءة👁 0 مشاهدة

كيف تؤثر كثافة المعرفة على تطوير نماذج الذكاء الاصطناعي متعدد الأنماط؟

تظهر دراسة جديدة أن كثافة المعرفة في بيانات التدريب تلعب دوراً أكبر في نجاح نماذج الذكاء الاصطناعي متعدد الأنماط (MLLMs) من تنوع المهام. الاعتماد على تغRich captions يمكن أن يحسن الأداء بشكل كبير.

في عصر الاعتماد المتزايد على الذكاء الاصطناعي، تقدم نماذج اللغة متعددة الأنماط (Multimodal Large Language Models - MLLMs) تقدمًا سريعًا في مجالات متعددة. لكن، لا تزال آلية توسيع هذه النماذج غير مفهومة بشكل كامل وغالبًا ما تكون أقل توقعًا مقارنةً بنماذج اللغة النصية التقليدية. في تقريرنا الأخير، استنتجنا أن أحد العوامل الرئيسية في هذا التحدي هو عدم كفاية كثافة المعرفة في بيانات التدريب.

في بحثنا، قمنا بتحليل دور معلومات المراقبة الخاصة بالمهام مثل "الإجابة على الأسئلة البصرية" (Visual Question Answering - VQA). وقد وجدنا أن هذه الأساليب لا تضيف سوى القليل من المعلومات الدلالية الجديدة مقارنة بتسميات الصور (image captions). بل إن إشارات VQA يمكن إعادة بنائها من تسميات الصور بشكل دقيق، دون فقدان الأداء.

الأهم من ذلك، أظهرت تجاربنا أن تحسين كثافة المعرفة من خلال إثراء التسميات الهيكلية واستدخال المعرفة من نماذج أخرى يزيد من الأداء بشكل ملحوظ عبر مؤشرات الأداء المتعددة. النتائج تشير إلى أن تحسين الأداء يرتبط بشكل أكبر بتغطية دلالية كافية بدلاً من تنوع المهام.

بهذا، نستنتج أن نقص التغطية المعرفية في البيانات التدريبية يكمن وراء فشل MLLMs في التوسع بشكل فعال. نوصي بتبني نهج يرتكز على المعرفة لتدريب النماذج متعددة الأنماط كقاعدة أساسية لتطوير نماذج أكثر نجاحًا وقابلية للتوسع.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة