# ثورة في الذكاء الاصطناعي: نموذج لغة القرار الموحد (DLM)

تتوالى الابتكارات في عالم الذكاء الاصطناعي، ومعها تأتي تحديات جديدة. أحد أبرز هذه التحديات هو كيفية بناء سياسات اتخاذ القرار متعددة الوكلاء من البيانات السابقة. يعد نموذج لغة القرار الموحد (DLM) حلاً مبتكرًا يهدف إلى معالجة هذا التحدي.

التحديات الحالية في التعلم المعزز للمساحات المتعددة (MARL)



تستند معظم الطرق التقليدية في هذا المجال إلى تنسيقات ثابتة للمراقبة وتحديد المساحات، مما يحد من القدرة على التعميم. على النقيض، تقدم النماذج اللغوية الكبيرة (LLMs) واجهة نمذجة مرنة يمكن أن تتكيف بشكل طبيعي مع الملاحظات والإجراءات المتنوعة.

نموذج لغة القرار (DLM)



نموذج DLM يعيد صياغة عملية اتخاذ القرار للمسؤولين المتعددين باعتبارها مشكلة تنبؤ تسلسلي بأسلوب حوار. يتم تدريب هذا النموذج عبر مرحلتين:
1. **مرحلة الضبط الدقيق تحت الإشراف**: في هذه المرحلة، يتم استخدام بيانات حوارية للتدريب المركزي مع سياق داخلي بين الوكلاء، مما يساعد على توليد إجراءات قابلة للتنفيذ من المسارات السابقة.
2. **مرحلة تحسين السياسة النسبية الجماعية**: تتم هذه المرحلة لتعزيز قدرة النموذج على التعامل مع الإجراءات غير المطروحة سابقًا من خلال دالات مكافأة خفيفة.

النتائج والأداء



تظهر التجارب على عدة مؤشرات أداء أن نموذج DLM الموحد يتفوق على طرق التعلم المعزز للمساحات المتعددة التقليدية، وكذلك على الطرق القائمة على المحادثات باستخدام نماذج LLM. بالإضافة إلى ذلك، يظهر النموذج قدرة قوية على التعميم دون أن يكون قد تم تدريبه على سيناريوهات جديدة.

**ماذا تنتظر؟ كيف تعتقد أن نموذج DLM سيسهم في تطوير الذكاء الاصطناعي في المستقبل؟**