في عالم سريع التطور، يتم اختبار قدرات الذكاء الاصطناعي (AI) من خلال ألعاب استراتيجية مثل الشطرنج. تشهد الساحة تطبيقًا جديدًا يتمثل في ChessArena، منصة مُخصصة لتقدير مهارات نماذج اللغة الضخمة (LLMs) في التفكير الاستراتيجي. يتطلب الشطرنج دقة عالية في الالتزام بالقواعد وقدرة على تتبع حالات اللعبة المعقدة.

تأتي ChessArena كإطار تنافسي حيث تتبارى نماذج اللغة ضد بعضها البعض في أربعة أنماط مختلفة للعب. خلال دراستنا، قمنا بتقييم 13 نموذجًا من LLMs عبر أكثر من 800 مباراة، مع التركيز على فهم القواعد الأساسية، واختيار الحركات، وحل الألغاز.

تظهر النتائج أن هذه النماذج لا ترتقي إلى المستوى المطلوب؛ حيث لم يتمكن أي نموذج من تجاوز Maia-1100، الذي يمثل مستوى الهواة البشري، وبالفعل، بعض النماذج انخفضت إلى مستوى اللعب العشوائي.

من جهة أخرى، قدمنا نموذجًا قويًا كان Qwen3-8B، الذي تم تحسين أدائه بشكل ملحوظ، ليقترب مما تحققه نماذج الاستدلال الأحدث والأكبر حجمًا. هذه النتائج تثير تساؤلات حيوية حول ما إذا كانت نماذج اللغة تمتلك حقًا القدرة على التفكير الاستراتيجي أم تعتمد فقط على التعرف على الأنماط.

مستقبل الذكاء الاصطناعي في الألعاب الاستراتيجية يُشير إلى ضرورة إعادة تقييم هذه النماذج والبحث عن الطرق التي يمكن أن تجعلها أكثر قدرة على التفوق في مجالات معقدة مثل الشطرنج. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.