موثورى – نظام تحليل الوثائق شبه الهيكلية المدعوم بالذكاء الاصطناعي
يقدم نظام موثورى حلاً مبتكرًا لتحليل الوثائق شبه الهيكلية التي تحتوي على عناصر بيانات متنوعة. بفضل تقنيات الذكاء الاصطناعي، تجاوز النظام التحديات التقليدية في فهم هذه الوثائق وتحسين دقة الإجابات.
في عالم مليء بالبيانات المعقدة، تبرز الوثائق شبه الهيكلية كأحد التحديات الكبيرة التي تواجهنا. تتضمن هذه الوثائق عناصر متنوعة مثل الجداول، الرسوم البيانية، والفقرات الهرمية المترابطة، ولكنها غالبًا ما تأتي بتنسيقات غير منتظمة. وللأسف، تعاني الأساليب الحالية من صعوبة كبيرة في الإجابة عن أسئلة اللغة الطبيعية المتعلقة بهذه الوثائق، وذلك لثلاثة أسباب رئيسية:
1. العناصر المستخرجة عبر تقنيات مثل التعرف الضوئي على الحروف (OCR) غالبًا ما تكون مجزأة وغير مرتبطة بسياقها الدلالي الأصلي.
2. تفتقر المقاربات الحالية إلى تمثيلات فعّالة لالتقاط الهياكل الهرمية داخل الوثائق، مما يجعل من الصعب ربط الجداول مع العناوين المرتبطة بها.
3. تتطلب عملية الإجابة على الأسئلة عادةً استرجاع المعلومات الموزعة عبر مناطق أو صفحات متعددة، مثل ربط فقرة وصفية بخلايا جدول موجودة في مكان آخر.
للتغلب على هذه التحديات، تم تقديم نظام موثورى، الذي يقوم على نماذج اللغات الضخمة (LLM) لتحليل الوثائق شبه الهيكلية. يعتمد موثورى على استراتيجية تجميع محلية لتحويل العناصر المخصصة من الـ OCR إلى مكونات مدركة للتنسيق، وينفذ استخراج معلومات خاص لكل نوع من هذه المكونات. كما تم تصميم شجرة الترابط بين المكونات (CCTree) لتهيئة المكونات بشكل هرمي، مما يمكّن من نمذجة العلاقات بين المكونات والتفريق بين العناصر المختلفة. من خلال استراتيجية استرجاع تدرك نوع السؤال، يتيح موثورى استرجاع المعلومات بطريقة أكثر دقة وفعالية. أظهرت التجارب أن موثورى يتفوق على الأساليب السابقة بنسبة 5.97%-61.07% في الدقة، مما يبشر بمستقبل واعد لتحليل الوثائق شبه الهيكلية.
إليكم رابط الشيفرة المصدرية: [موثورى](https://github.com/weAIDB/MoDora).
1. العناصر المستخرجة عبر تقنيات مثل التعرف الضوئي على الحروف (OCR) غالبًا ما تكون مجزأة وغير مرتبطة بسياقها الدلالي الأصلي.
2. تفتقر المقاربات الحالية إلى تمثيلات فعّالة لالتقاط الهياكل الهرمية داخل الوثائق، مما يجعل من الصعب ربط الجداول مع العناوين المرتبطة بها.
3. تتطلب عملية الإجابة على الأسئلة عادةً استرجاع المعلومات الموزعة عبر مناطق أو صفحات متعددة، مثل ربط فقرة وصفية بخلايا جدول موجودة في مكان آخر.
للتغلب على هذه التحديات، تم تقديم نظام موثورى، الذي يقوم على نماذج اللغات الضخمة (LLM) لتحليل الوثائق شبه الهيكلية. يعتمد موثورى على استراتيجية تجميع محلية لتحويل العناصر المخصصة من الـ OCR إلى مكونات مدركة للتنسيق، وينفذ استخراج معلومات خاص لكل نوع من هذه المكونات. كما تم تصميم شجرة الترابط بين المكونات (CCTree) لتهيئة المكونات بشكل هرمي، مما يمكّن من نمذجة العلاقات بين المكونات والتفريق بين العناصر المختلفة. من خلال استراتيجية استرجاع تدرك نوع السؤال، يتيح موثورى استرجاع المعلومات بطريقة أكثر دقة وفعالية. أظهرت التجارب أن موثورى يتفوق على الأساليب السابقة بنسبة 5.97%-61.07% في الدقة، مما يبشر بمستقبل واعد لتحليل الوثائق شبه الهيكلية.
إليكم رابط الشيفرة المصدرية: [موثورى](https://github.com/weAIDB/MoDora).
