تعد الرسوم البيانية من الأدوات الحيوية لعرض المعلومات المعقدة، لكن تفسير هذه البيانات في السياقات الواقعية غالبًا ما يتطلب فهم مجموعة من الرسوم المرتبطة ببعضها البعض. وللأسف، لم يتم استكشاف الأبحاث المتعلقة بفهم الصور متعددة الرسوم البيانية بشكل كافٍ حتى الآن. في هذا الإطار، تم تقديم مجموعة بيانات جديدة تعرف باسم PolyChartQA، والتي تهدف إلى تحسين عملية الإجابة على الأسئلة المتعلقة بالصور متعددة الرسوم.
تتكون مجموعة PolyChartQA من 534 صورة متعددة الرسوم تحتوي على 2,297 رسمًا فرعيًا، تم جمعها من منشورات البحث العلمي المحكّمة في مجال علوم الحاسوب. كما تتضمن المجموعة 2,694 زوجًا من الأسئلة والأجوبة، مما يوفر أساسًا قويًا لاختبار أداء النماذج.
لقد قمنا بتقييم أداء تسعة نماذج لغوية متعددة الوسائط (Multimodal Language Models - MLMs) على مجموعة PolyChartQA، مع التركيز على أنواع الأسئلة، صعوبتها، ومصادرها. أظهرت نتائجنا تراجعًا بنسبة 27.4% في دقة الإجابات ذات الأسئلة المكتوبة من قبل البشر مقارنةً بالأسئلة التي أُنتجت بواسطة النماذج، كما لاحظنا تحسينًا بنسبة 5.39% في الدقة باستخدام طريقة الاقتراحات الجديدة التي اقترحناها.
مما لا شك فيه أن هذا البحث يمثل خطوة هامة نحو تحسين قدرة الذكاء الاصطناعي على التعامل مع البيانات المعقدة رهن تساؤلات المستخدمين. فكيف يمكن أن يؤثر ذلك على تحسين أدوات الذكاء الاصطناعي في المستقبل؟
استكشاف بيانات متعددة: معيار جديد للإجابة على الأسئلة باستخدام الرسومات المتعددة!
تم تصميم مجموعة بيانات PolyChartQA لمساعدة النماذج اللغوية على فهم الرسوم البيانية المتعددة. يشير البحث إلى انخفاض كبير في دقة الإجابات عند التعامل مع أسئلة من تأليف البشر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
