في عالم الذكاء الاصطناعي، يشكل تطوير المعايير العلمية خطوة حيوية لفهم كيفية تعامل نماذج الذكاء الاصطناعي مع المشكلات المعقدة. يصل إلينا مشروع ThermoQA، الذي يُعد بمثابة معيار جديد ومبتكر لتقييم التفكير الديناميكي الحراري. يشمل هذا المعيار 293 مشكلة مفتوحة تتعلق بهندسة الديناميكا الحرارية، مقسمة إلى ثلاثة مستويات: بحث الخصائص (Property Lookups) بعدد 110 سؤالًا، تحليل المكونات (Component Analysis) بـ 101 سؤال، وتحليل الدورة الكاملة (Full Cycle Analysis) بـ 82 سؤالًا.

يتم احتساب الحقائق الأساسية بشكل برمجي من أداة CoolProp 7.2.0، والتي تغطي مجموعة من المواد من بينها الماء وR-134a والهواء ذي السعة الحرارية المتغيرة. تم تقييم ستة نماذج رائدة (Frontier LLMs) عبر ثلاث جولات مستقلة لكل نموذج. النتيجة النهائية أظهرت تتويج Claude Opus 4.6 بنسبة 94.1%، يليه GPT-5.4 بنسبة 93.1%، وGemini 3.1 Pro بنسبة 92.5%.

الأداء عبر المعايير المختلفة كشف عن تباين ملحوظ، حيث تراوحت الانخفاضات من 2.8 نقطة (Opus) إلى 32.5 نقطة (MiniMax)، مما يؤكد أن حفظ الخصائص لا يعني بالضرورة القدرة على التفكير الديناميكي الحراري بفعالية. شهدت التحليلات المتعلقة بالماء فوق الحرج ورائحة R-134a، وكذلك تحليل توربينات الغاز المركبة، تباينًا في الأداء بين 40-60 نقطة.

علاوة على ذلك، تم قياس تناسق التفكير كمعيار تقييم مستقل، حيث تراوحت قيم التشغيل المتعددة (Multi-run sigma) بين +/-0.1% و +/-2.5%.

تجدون مجموعة البيانات (Dataset) والشيفرة المصدرية مفتوحة المصدر على الرابط التالي: [ThermoQA Dataset](https://huggingface.co/datasets/olivenet/thermoqa). هل أنتم متحمسون لهذا التحدي الجديد في عالم الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!