يُعتبر حل المشكلات الهندسية (Geometry Problem Solving) من أكبر التحديات التي تواجه نماذج اللغات الكبيرة متعددة الوسائط (Multimodal Large Language Models) في فهم المخططات واستخدام المعرفة والتفكير المعقد. ورغم التطور الكبير في هذا المجال، إلا أن المعايير الحالية لا تقدم تقييمًا دقيقًا للمشكلات الطويلة التي تتطلب بناء خطوط مساعدة.
لذلك، تم تقديم GeoLaux، وهو مجموعة بيانات مصنفة بشكل دقيق تتضمن 2186 مسألة حسابية وإثبات. تتميز هذه البيانات بتفكير طويل الخطوات، حيث يبلغ متوسط طول الحل 6.51 خطوة، مع حد أقصى يبلغ 24 خطوة، ويتطلب بناء الخطوط المساعدة في 41.8% من الأسئلة.
استناداً إلى هذه البيانات، أجرينا تقييمًا شاملًا لــ 23 نموذجًا رائدًا في الذكاء الاصطناعي. وقد أسفرت النتائج عن ثلاث نقاط حيوية:
1. تظهر النماذج أداءً ضعيفًا بشكل كبير في المشكلات الطويلة مقارنةً بالمشكلات القصيرة، حيث أظهرت 18 نموذجًا انخفاضًا في الأداء يتجاوز 50%.
2. من الضروري تعزيز فهم النماذج ووعيها وكفاءتها في بناء الخطوط المساعدة، وهو أمر حيوي للتفكير الهندسي بشكل عام.
3. تحسن الإرشادات المحدودة للإجابة بشكل فعّال من دقة الإجراءات، بينما تؤدي الإجابات الواضحة إلى إغفال النماذج لخطوات التفكير المتوسطة.
تُعد GeoLaux أداة مثالية لتقييم مهارات التفكير الهندسي لدى نماذج الذكاء الاصطناعي، وتوجيه تحسينها.
للاطلاع على البيانات والكود، يمكنكم زيارة [GitHub](https://github.com/Candice-yu/GeoLaux).
GeoLaux: الثورة الجديدة في تقييم أداء نماذج الذكاء الاصطناعي في حل مشكلات الهندسة المعقدة!
طرحت دراسة جديدة تسمى GeoLaux لتقييم كيفية أداء نماذج الذكاء الاصطناعي في حل المشكلات الهندسية المعقدة التي تحتاج إلى خطوات مساعدة. توصلت الدراسة إلى نتائج هامة تدعو لمراجعة كيفية تصميم هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
