في عالم الذكاء الاصطناعي، يعد استرجاع المعلومات (Retrieval) جزءًا أساسيًا من كيفية تعامل نماذج اللغة الكبيرة (Large Language Models) مع الأسئلة المعقدة. لكن مع تعقد الأمور، تظهر تحديات جديدة تتعلق بالضجيج غير ذي الصلة الذي يمكن أن يضلل عملية التفكير، فضلاً عن التكاليف العالية لمعالجة المستندات كاملة. لحل هذه المشاكل، تم تقديم OThink-SRR1، وهو إطار مبتكر يعتمد على عملية البحث والتكرار والتفكير.

تعتمد طريقة OThink-SRR1 على ثلاث مراحل مُتتابعة: البحث (Search) عن المعلومات ذات الصلة، التكرار (Refine) لاستخراج الحقائق الدقيقة، وأخيراً التفكير (Reasoning) للتوصل إلى استنتاجات منطقية.

ما يميز هذه الطريقة هو استخدامها للتعلم المعزز (Reinforcement Learning) من خلال خوارزمية GRPO-IR، والتي تركز على مكافأة التعرف الدقيق على الأدلة وتجنب الاسترجاعات المفرطة.

أظهرت التجارب التي أجريت على أربعة من مؤشرات الأداء الرئيسية في استرجاع المعلومات متعددة الخطوات تفوق OThink-SRR1 من حيث الدقة مقارنةً بالطرق التقليدية، مع استخدام عدد أقل من خطوات الاسترجاع. مما يعزز مكانتها كنموذج أساسي قوي لوكلاء البحث عن المعلومات.