لقد شكل التفكير الرياضي نقطة محورية لتقييم نماذج اللغات الضخمة (Large Language Models) لفترة طويلة. ومع تقدم التكنولوجيا، تم تحقيق إنجازات ملحوظة في حل مسائل الرياضيات الكلامية، بينما ظل التفكير المعتمد على البيانات الجدولية في التطبيقات الواقعية اهتمامًا محدودًا. في مجالات مثل ذكاء الأعمال، هناك حاجة ضرورية لتطبيقات لا تقتصر على الحسابات متعددة الخطوات فحسب، بل يجب أيضًا أن تتحلى بالقدرة على التعامل مع المعلومات غير الكاملة أو المتناقضة.

للإجابة على هذه الاحتياجات، تم تقديم AutoT2T، إطار عمل عصبي-رمزي يقوم بتحويل مسائل الرياضيات الكلامية إلى مهام تفكير جدولي قابلة للتوسع والتحقق. وبناءً على هذا الإطار، تم تطوير TabularMath، وهو معيار يتضمن أربعة فئات تشمل جداول نصية وصورية، مما يغطي جوانب تعقيد الجداول وجودتها وأبعاد تمثيل الجداول.

تظهر دراستنا ثلاث ملاحظات رئيسية:
1. يؤثر تعقيد الجداول وصعوبة التفكير بشكل مشترك على أداء التفكير الرياضي.
2. تمثل الجداول ذات الجودة المنخفضة مخاطر كبيرة على الوثوقية في نماذج اللغة الحالية.
3. تُظهر أنماط الجداول المختلفة اتجاهات مشابهة، حيث تكون الجداول النصية أسهل عادةً في التعامل معها بواسطة النماذج.

تشتمل التحليلات المعمقة لكل ملاحظة على إرشادات مهمة للبحوث المستقبلية، مما يؤدي إلى تحسين تفكير النماذج في استخدام البيانات الجدولية.