تشكل قدرات نماذج اللغات الضخمة (Large Language Models) تحدياً كبيراً عند تقييمها في المهام المالية التي تحتاج إلى تحليل بيانات معقدة. في ظل العوائق التي تواجه المعايير التقليدية في قياس الأداء الفعلي، تقدم دراسة جديدة منهجية مبتكرة تُعرف باسم "توليد البيانات المعززة من السلاسل الزمنية" (Time Series Augmented Generation - TSAG).

تستهدف هذه المنهجية قياس أداء نماذج الذكاء الاصطناعي بشكل دقيق عن طريق قضاء المزيد من الوقت في تحليل البيانات المالية. تتكون المنهجية من اختبار يتضمن 100 سؤال مالي، مما يتيح مقارنة أداء نماذج متقدمة مثل GPT-4o وLlama 3 وQwen2.

تم تطبيق هذا الإطار في دراسة تجريبية واسعة النطاق، حيث قامت نماذج الذكاء الاصطناعي باستخدام أدوات خارجية للتحليل العددي. أظهرت النتائج أن النماذج القادرة يمكنها تحقيق دقة استخدام الأدوات قرب الكمال مع الحد الأدنى من المعلومات الخاطئة. يبرز هذا النجاح أهمية استخدام أدوات خارجية في تعزيز الأداء الفعال للذكاء الاصطناعي في التحليل المالي.

تسعى هذه الدراسة إلى تقديم رؤى جديدة حول أداء الوكلاء الذكيين، وهو ما يساعد على دفع حدود البحث المعياري حول الذكاء الاصطناعي الموثوق في مجال المالية. الحكمة الخلفية هنا هي أن دمج أدوات موثوقة يمكن أن يُحدث فرقًا كبيرًا في النتائج المثمرة.