في عالم الذكاء الاصطناعي، يعد البحث الذكي (Agentic Search) أحد أكثر المجالات تطوراً، حيث يتطلب تدريب وكلاء قادرين على التفكير بشكل منهجي، إصدار استفسارات، وتوليف المعلومات المسترجعة للإجابة على أسئلة معقدة. ومع ذلك، تكشف الأبحاث أن معظم النماذج الحالية، مثل نموذج Search-R1، تعامل نظام الاسترجاع كأداة ثابتة، مما يعني أنها تركز على تحسين وكيل التفكير فقط دون إجراء أي تغييرات على مكونات الاسترجاع ذاتها.
وفي تجربة أولية، أظهرت النتائج وجود فائدة تصل إلى +26.8% في معيار F1 عند مقارنة الأداء بين نموذج مثالي ونظام استرجاع ثابت عبر سبعة اختبارات جودة الإجابة (QA Benchmarks). هذه النتائج تشير بوضوح إلى أن نظام الاسترجاع هو عنق الزجاجة الرئيسي في تطوير أداء البحث الذكي.
استجابةً لهذه التحديات، قدم الباحثون إطار CoSearch، الذي يدمج بين تدريب وكلاء التفكير ونماذج تصنيف الوثائق بشكل مشترك باستخدام تقنية تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization - GRPO).
لضمان فعالية تدريب GRPO بالنسبة لنموذج التصنيف، تم تقديم استراتيجية تجميع دلالي تفاعل تتجمع فيها الاستفسارات الفرعية وفقاً للتشابه على مستوى الرموز، مما يجعل من الممكن تشكيل مجموعات تحسين صحيحة بدون الحاجة إلى عمليات تنفيذ إضافية. كما تم تصميم مكافأة مركبة تجمع بين إشارات جودة التصنيف مع تغذية مرتدة على مستوى النتيجة، مما يوفر للموفر إشارات تعلم فورية وطويلة الأجل.
تظهر التجارب التي أجريت على اختبارات الجودة السريعة والمركبة النتائج المتسقة لتحسين الأداء مقارنة بالمراجع القوية، مع دراسات الشطب التي تؤكد فعالية كل اختيار تصميم. تشير نتائجنا إلى أن التدريب المشترك لوكيل التفكير ونظام الاسترجاع ليس فقط قابلاً للتحقيق، بل أيضًا ذا أداء قوي، مما يشير إلى عنصر رئيسي لمستقبل وكلاء البحث.
CoSearch: ثورة في تدريب وكلاء البحث باستخدام التعلم التعزيزي!
تقدم CoSearch إطاراً مبتكراً يجمع بين تدريب وكلاء التفكير ونماذج تصنيف الوثائق، مما يحدث تحولاً في كيفية البحث عن المعلومات. نتائج التجارب تظهر تحسنًا ملحوظًا في أداء وكلاء البحث.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
