# ثورة في الذكاء الاصطناعي: UR² وكيف يغير قواعد اللعبة

أظهرت نماذج اللغة الكبيرة (Large Language Models - LLMs) قدرات مذهلة من خلال نموذجين متكاملين هما: استرجاع المعلومات المعزز (Retrieval-Augmented Generation - RAG) والتعلم المعزز من المكافآت القابلة للتحقق (Reinforcement Learning from Verifiable Rewards - RLVR). لكن التحدي الرئيسي كان محاولة توحيد هذين النموذجين، مما كان يقتصر دوماً على تطبيقات محددة مثل أسئلة الإجابة المفتوحة.

تقديم UR²



نأتي الآن إلى الحل الملهم: **UR²** (Unified RAG and Reasoning)، وهو إطار عمل جديد في التعلم المعزز يساعد على التنسيق بين الاسترجاع والتفكير بشكل ديناميكي. يبسّط UR² العملية باستخدام تصميمين رئيسيين:

1. **منهج قائم على صعوبة المهمة**: يقوم بتفعيل الاسترجاع فقط في الحالات التي تمثل تحدياً.
2. **استراتيجية وصول مختلطة للمعرفة**: تجمع بين قواعد بيانات محددة المجال مع ملخصات تم إنشاؤها بواسطة نماذج اللغة في الوقت الفعلي.

تعمل هذه العناصر معاً للتغلب على الفجوة بين الاسترجاع والتفكير، مما يجعل النظام أكثر قوة في مواجهة المعلومات الضوضائية.

أداء مذهل



أثبتت التجارب على مهام متنوعة بما في ذلك أسئلة الإجابة المفتوحة، الرياضيات، والتفكير الطبي أن UR²، الذي يعتمد على نماذج Qwen-2.5-3/7B وLLaMA-3.1-8B، يتفوق بشكل مستمر على المعايير الحالية ويحقق أداءً مشابهاً لنماذج متقدمة مثل GPT-4o-mini وGPT-4.1-mini.

يمكنك العثور على الشيفرة المصدرية لـ UR² على [GitHub](https://github.com/Tsinghua-dhy/UR2).

هل أنت مستعد لاستكشاف مستقبل الذكاء الاصطناعي مع UR²؟