في عصر تتداخل فيه التكنولوجيا مع العلوم بشكل متزايد، تبرز أهمية المحاكاة الرمزية المدركة للفيزياء (Physics-aware symbolic simulation) كأساس حيوي في مجالات الروبوتات (Robotics) والذكاء الاصطناعي المُجسَّد (Embodied AI) والحوسبة العلمية (Scientific Computing). إذ يتطلب ذلك نماذج قادرة على فهم الأوصاف اللغوية الطبيعية للظواهر الفيزيائية وترجمتها إلى بيئات محاكاة قابلة للتنفيذ.
لكن ما يعاني منه معظم النماذج اللغوية الكبيرة (LLMs) هو الفجوة الدلالية بين الأوصاف الفيزيائية وتنفيذ المحاكاة، مما يجعل عملية الترجمة بينهما معقدة. لذلك، نُطلق اليوم PhysCodeBench، المعيار الأول من نوعه لتقييم المحاكاة الرمزية المدركة للفيزياء، الذي يشمل 700 عينة متنوعة تم تصميمها يدويًا عبر مجالات الميكانيكا والديناميكا السائلة (Fluid Dynamics) وفيزياء الأجسام اللينة (Soft-body Physics) مع شروحات من خبراء.
إطار التقييم
تم تصميم إطار التقييم الخاص بنا لقياس كل من قابلية تنفيذ الشيفرة والدقة الفيزيائية من خلال تقييمات آلية وبصرية. وفي هذا الإطار، نقدم أيضًا إطار عمل تصحيح الأخطاء متعدد الوكلاء (Self-Corrective Multi-Agent Refinement Framework - SMRF) الذي يتضمن ثلاثة وكلاء متخصصين: مُولد المحاكاة (Simulation Generator)، مُصحح الأخطاء (Error Corrector)، ومُحسن المحاكاة (Simulation Refiner). هؤلاء الوكلاء يتعاونون بشكل متكرر مع التحقق من صحة المجال المحدد لإنتاج محاكاة فيزيائية دقيقة.
نجح SMRF في تحقيق أداء شامل بلغ 67.7 نقطة، مقارنةً بـ 36.3 نقطة لأفضل نموذج سابق تم تقييمه، مما يمثل تحسينًا مذهلاً بمقدار 31.4 نقطة. توضح تحليلاتنا أن تصحيح الأخطاء يعد أمرًا حيويًا للمحاكاة الرمزية المدركة للفيزياء، وأن أساليب الوكلاء متعددة التخصصات تتفوق بشكل كبير على الطرق الفردية في جميع المجالات الفيزيائية المُختبرة.
