GeoLaux: الثورة الجديدة في تقييم أداء نماذج الذكاء الاصطناعي في حل مشكلات الهندسة المعقدة!

يُعتبر حل المشكلات الهندسية (Geometry Problem Solving) من أكبر التحديات التي تواجه نماذج اللغات الكبيرة متعددة الوسائط (Multimodal Large Language Models) في فهم المخططات واستخدام المعرفة والتفكير المعقد. ورغم التطور الكبير في هذا المجال، إلا أن المعايير الحالية لا تقدم تقييمًا دقيقًا للمشكلات الطويلة التي تتطلب بناء خطوط مساعدة.

لذلك، تم تقديم GeoLaux، وهو مجموعة بيانات مصنفة بشكل دقيق تتضمن 2186 مسألة حسابية وإثبات. تتميز هذه البيانات بتفكير طويل الخطوات، حيث يبلغ متوسط طول الحل 6.51 خطوة، مع حد أقصى يبلغ 24 خطوة، ويتطلب بناء الخطوط المساعدة في 41.8% من الأسئلة.

استناداً إلى هذه البيانات، أجرينا تقييمًا شاملًا لــ 23 نموذجًا رائدًا في الذكاء الاصطناعي. وقد أسفرت النتائج عن ثلاث نقاط حيوية:
1. تظهر النماذج أداءً ضعيفًا بشكل كبير في المشكلات الطويلة مقارنةً بالمشكلات القصيرة، حيث أظهرت 18 نموذجًا انخفاضًا في الأداء يتجاوز 50%.
2. من الضروري تعزيز فهم النماذج ووعيها وكفاءتها في بناء الخطوط المساعدة، وهو أمر حيوي للتفكير الهندسي بشكل عام.
3. تحسن الإرشادات المحدودة للإجابة بشكل فعّال من دقة الإجراءات، بينما تؤدي الإجابات الواضحة إلى إغفال النماذج لخطوات التفكير المتوسطة.

تُعد GeoLaux أداة مثالية لتقييم مهارات التفكير الهندسي لدى نماذج الذكاء الاصطناعي، وتوجيه تحسينها.
للاطلاع على البيانات والكود، يمكنكم زيارة [GitHub](https://github.com/Candice-yu/GeoLaux).

GeoLaux: الثورة الجديدة في تقييم أداء نماذج الذكاء الاصطناعي في حل مشكلات الهندسة المعقدة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!