في عالم الذكاء الاصطناعي، تعد تقنية جيل الاسترجاع المعزز (Retrieval-Augmented Generation - RAG) إحدى الطرق المتطورة التي تتيح للنماذج معالجة المعلومات بشكل أكثر فعالية. ومع ذلك، تواجه هذه التقنية تحديات كبيرة تتجاوز مجرد الاسترجاع البسيط للمعلومات النصية.
تلك التحديات تشمل تفسير العناصر البصرية مثل الجداول والرسوم البيانية والصور، ودمج المعلومات من مستندات متعددة، بالإضافة إلى تقديم مصادر دقيقة للأجوبة. وللأسف، لا تغطي المعايير الحالية التعقيدات الموجودة في هذه السيناريوهات، حيث تركز بشكل رئيسي على البيانات النصية وتحليل مستند واحد فقط، مما يجعل من الصعب تسليط الضوء على أهمية المحتوى المتعدد.
لذا، تم إطلاق ViDoRe V3 - معيار متكامل ومتميز لتقييم جيل الاسترجاع المعزز. يتميز هذا المعيار بتوفير استعلامات متنوعة عبر مجموعات مستندات غنية بصرياً، ويضم 10 مجموعات بيانات من مجالات احترافية متنوعة، مع تضمينه حوالي 26,000 صفحة مستندات و3,099 استعلاماً تم التحقق منها من قبل البشر، وهو متاح بست لغات.
بعد جهود مضنية استغرقت 12,000 ساعة من تعليقات البشر، يحتوي المعيار على بيانات توضيحية عالية الجودة تتعلق بملاءمة الاسترجاع، وتحديد المواقع، والأجوبة المعتمدة. تشير التقييمات للعمليات الحالية في تقنية RAG إلى تفوق استرجاع البيانات البصرية على الاسترجاع النصي، كما تحسن نماذج التفاعل المتأخر وإعادة تصنيف النصوص الأداء بشكل ملحوظ، بينما تعزز النماذج الهجينة أو السياقات البصرية البحتة جودة توليد الإجابات.
ومع ذلك، لا تزال النماذج الحالية تكافح في مواجهة العناصر غير النصية، والاستعلامات المفتوحة، وتحديد المواقع البصرية الدقيقة. في خطوة لدعم البحث وتطوير الحلول لهذه التحديات، تم إطلاق هذا المعيار برخصة تجارية على موقع [https://hf.co/vidore].
كيف ترى تأثير ViDoRe V3 على تطوير تقنيات الذكاء الاصطناعي في المستقبل؟ شاركونا آراءكم في التعليقات!
اكتشاف عمق البيانات: تقييم شامل لجيل الاسترجاع المعزز في مشاهد الحياة الواقعية المعقدة
تم الكشف عن إصدار ViDoRe V3، معيار متكامل لتقييم تقنية جيل الاسترجاع المعزز (RAG) عبر مجموعة متنوعة من السيناريوهات الحياتية. يهدف هذا المعيار إلى تحسين دقة النماذج الحالية من خلال تغطية عناصر بصرية ومعلومات متعددة المصادر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
