في عالم الأعمال المتسارع، تظل معالجة الوثائق من التحديات الكبرى التي تواجه المؤسسات. جاءت دراسة حديثة لتسليط الضوء على كيفية تحسين هذه العملية، حيث تم إنشاء إطار عمل جديد يُعرف باسم **EnterpriseDocBench** لتقييم نظم الذكاء الاصطناعي (AI) في معالجة الوثائق.
ماذا يعني هذا الإطار؟
يتألف الإطار من مجموعة من المراحل: **التحليل (Parsing)**، **الفهرسة (Indexing)**، **الاسترجاع (Retrieval)**، و**التوليد (Generation)**. كل مرحلة تم دراستها بشكل منفصل لسنوات، ولكن التحدي الحقيقي كان في تقييم أداء النظام ككل.
تم اختبار ثلاثة أنظمة: **BM25**، **التضمين الكثيف (Dense Embedding)**، ونظام هجين، جميعها مستخدمة مع مولد **GPT-5**. النتائج المبشرة هي أن النظام الهجين تفوق قليلاً على BM25 بنسبة **nDCG@5** بلغت 0.92 مقابل 0.91. بينما تبين أن تضمين الكثافة أقل فعالية، بمعدل تقريباً 0.83.
هل كانت النتائج مفاجئة؟
بالطبع! تبين أن دقة الحقائق عند الإجابة كانت 85.5%، ولكن نسبة اكتمال الإجابات كانت 0.40 فقط. مما يعني أن النظام يكون دقيقاً عند الإجابة، لكنه يفتقر إلى الكثير من المعلومات الضرورية.
التحليل والتطبيقات المستقبلية
تم تقديم ثلاثة معمارية مرجعية مثل **ColPali** و**ColQwen2** ذات التعقيد القائم على العوامل الوكيلة، رغم أنها لم تُدمج بعد بشكل كامل. ستتاح جميع الإطارات والمقاييس والبيانات كمصدر مفتوح عند قبول المشروع.
تذكر أن هذا هو مجرد بداية رحلة جديدة في عالم معالجة الوثائق بواسطة الذكاء الاصطناعي. هل أنت مستعد لاستكشاف كيف يمكن أن تغير هذه التقنية طريقة عملك؟
