تعتبر أنظمة استرجاع البيانات المعززة بالتوليد (RAG) ذات أهمية بالغة في مجال التعامل مع الوثائق المالية، حيث تعتمد هذه الأنظمة على تقسيم الوثائق إلى أجزاء صغيرة، ثم يتم إدماجها في فضاء شعاعي لاسترجاع المعلومات من خلال البحث عن التشابه. ورغم فعالية هذا الأسلوب في الإعدادات العامة، يعاني من مشكلة ارتباك الأجزاء المتشابهة بين الوثائق، خاصةً عند التعامل مع ملفات تنظيمية متجانسة.

تُحسِّن تقنية توجيه الملفات الدلالية (SFR) من دقة استرجاع الوثائق من خلال استخدام ناتج هيكلي من نماذج اللغات الضخمة (LLMs) لتوجيه الاستفسارات نحو الوثائق الكاملة، مما يقلل من الفشل الكارثي، لكنه يؤثر على دقة استرجاع الأجزاء المستهدفة.

تم تنفيذ تقييمات مقارنة باستخدام معيار FinDER، حيث تم اختبار 1,500 استفسار عبر خمس مجموعات. أظهرت النتائج أن SFR تسجل نقاطًا متوسطة أعلى (6.45 مقابل 6.02) وتقلل من حالات الفشل (10.3% مقابل 22.5%). بينما يقدم استرجاع الأجزاء (CBR) إجابات صحيحة أكثر (13.8% مقابل 8.5%).

لحل هذه المعضلة، تم طرح مفهوم استرجاع الوثائق الهجينة الموجهة (HDRR)، الذي يعتمد على معماريتين: الأولى تقوم بتصفية الوثائق باستخدام SFR، تليها عملية استرجاع للأجزاء المرجعية التي تستهدف الوثائق المحددة. يقلل ذلك من الارتباك الناتج عن الوثائق المتعددة، مع الحفاظ على دقة الاسترجاع المستهدف.

تظهر التجارب أن HDRR يسجل أفضل أداء عبر جميع المعايير، حيث حقق متوسط نقاط بلغ 7.54 (بنسبة 25.2% أعلى من CBR و16.9% أعلى من SFR)، ومعدل فشل يبلغ 6.4% فقط، ونسبة صحيحة تصل إلى 67.7% (+18.7 نقطة مئوية مقارنة بـ CBR)، ونسبة إجابات كاملة 20.1% (+6.3 نقطة مئوية مقارنة بـ CBR، +11.6 نقطة مئوية مقارنة بـ SFR).

في الختام، يثبت HDRR أنه قادر على تحقيق توازن استثنائي بين تقليل معدلات الفشل وزيادة الدقة عبر جميع المجموعات التجريبية المستخدمة.