قفزة مذهلة في فهم المحتوى: INDOTABVQA تعيد تشكيل تحليل الجداول اللغوية المتعددة!
تم إطلاق INDOTABVQA، معيار مبتكر لتقييم فهم الجداول اللغوية المتعددة باللغة الإندونيسية. يُعزز هذا العمل أداء نماذج الذكاء الاصطناعي في تحليل الوثائق وإجابتها بدقة تتخطى التحديات اللغوية.
في إنجاز يُعَدّ ثورة في عالم الذكاء الاصطناعي، تم إطلاق معيار جديد يدعى INDOTABVQA، الذي يمثل خطوة بارزة في مجال تحليل الجداول اللغوية المتعددة. يتناول هذا المشروع فهم الجداول في وثائق باللغة الإندونيسية من خلال استغلال نماذج الذكاء الاصطناعي المتطورة.
تتألف مجموعة البيانات من 1,593 صورة لوثائق تُظهر ثلاث أساليب بصرية متميزة (بحدود، بلا حدود، وملونة)، تحتوي كل منها على جدول واحد أو عدة جداول، إلى جانب 1,593 مجموعة من الأسئلة والأجوبة بأربع لغات: الإندونيسية، الإنجليزية، الهندية، والعربية. هذا التنوع اللغوي يُمكّن الباحثين والمطورين من تقييم نماذج اللغة والرؤية (Vision-Language Models - VLMs) في إعدادات متعددة اللغات.
خلال البحث، تم تقييم كفاءة نماذج VLM الرائدة مثل (Qwen2.5-VL) و(Gemma-3) و(LLaMA-3.2) و(GPT-4o)، وكُشف عن فجوات أداء ملحوظة، خاصة في التعامل مع الجداول الهيكلية المعقدة واللغات المنخفضة الموارد. ومن خلال تحسين النماذج الصغيرة (3B) والنماذج المعدلة بنظام LoRA (7B)، تم تحقيق تحسينات في الدقة بنسبة 11.6% و17.8% على التوالي.
كما أظهر إدخال إحداثيات المناطق المخصصة للجداول كمدخلات إضافية تحسنًا إضافيًا في الأداء بنسبة تتراوح بين 4% و7%. هذه النتائج تُبرز أهمية توفير مجموعات بيانات متنوعة لغويًا ومتخصصة في مجالات معينة، وتظهر أن تحسين النماذج المستهدف يمكن أن يُحسن بشكل كبير من أداء VLM في مهام فهم الوثائق المتخصصة.
تمثل INDOTABVQA موردًا قيمًا لدفع الأبحاث في فهم الوثائق عبر اللغات، خصوصًا في المناطق التي تعاني من نقص في الموارد. يمكن الوصول إلى مجموعة البيانات الكاملة عبر huggingface: [INDOTABVQA Dataset](https://huggingface.co/datasets/NusaBharat/INDOTABVQA).
ما رأيكم في هذا التطور المثير في مجال الذكاء الاصطناعي؟ شاركونا أفكاركم وتجاربكم في التعليقات!
تتألف مجموعة البيانات من 1,593 صورة لوثائق تُظهر ثلاث أساليب بصرية متميزة (بحدود، بلا حدود، وملونة)، تحتوي كل منها على جدول واحد أو عدة جداول، إلى جانب 1,593 مجموعة من الأسئلة والأجوبة بأربع لغات: الإندونيسية، الإنجليزية، الهندية، والعربية. هذا التنوع اللغوي يُمكّن الباحثين والمطورين من تقييم نماذج اللغة والرؤية (Vision-Language Models - VLMs) في إعدادات متعددة اللغات.
خلال البحث، تم تقييم كفاءة نماذج VLM الرائدة مثل (Qwen2.5-VL) و(Gemma-3) و(LLaMA-3.2) و(GPT-4o)، وكُشف عن فجوات أداء ملحوظة، خاصة في التعامل مع الجداول الهيكلية المعقدة واللغات المنخفضة الموارد. ومن خلال تحسين النماذج الصغيرة (3B) والنماذج المعدلة بنظام LoRA (7B)، تم تحقيق تحسينات في الدقة بنسبة 11.6% و17.8% على التوالي.
كما أظهر إدخال إحداثيات المناطق المخصصة للجداول كمدخلات إضافية تحسنًا إضافيًا في الأداء بنسبة تتراوح بين 4% و7%. هذه النتائج تُبرز أهمية توفير مجموعات بيانات متنوعة لغويًا ومتخصصة في مجالات معينة، وتظهر أن تحسين النماذج المستهدف يمكن أن يُحسن بشكل كبير من أداء VLM في مهام فهم الوثائق المتخصصة.
تمثل INDOTABVQA موردًا قيمًا لدفع الأبحاث في فهم الوثائق عبر اللغات، خصوصًا في المناطق التي تعاني من نقص في الموارد. يمكن الوصول إلى مجموعة البيانات الكاملة عبر huggingface: [INDOTABVQA Dataset](https://huggingface.co/datasets/NusaBharat/INDOTABVQA).
ما رأيكم في هذا التطور المثير في مجال الذكاء الاصطناعي؟ شاركونا أفكاركم وتجاربكم في التعليقات!

