تُعتبر عملية تخطيط الرحلات مهمة طبيعية ومهمة لاختبار قدرات نماذج اللغات الكبيرة (Large Language Models) على التخطيط واستخدام الأدوات. ومع أن الأبحاث السابقة تناولت أداء هذه النماذج في تخطيط الرحلات، إلا أن الإعدادات القائمة لا تعكس دومًا الاحتياجات الواقعية، وذلك بسبب ضعف تغطية المجالات، ونقص نمذجة تفضيلات المستخدمين الضمنية في المحادثات متعددة الأدوار، وغياب تقييم حدود قدرات الوكلاء.
لتعزيز الفعالية والتفاعل، نقدم معيارًا جديدًا يُدعى **TravelBench**، الذي يهدف إلى تقديم تخطيط سفر حقيقي. يعتمد هذا المعيار على جمع استفسارات المستخدمين وتفضيلاتهم والأدوات من سيناريوهات واقعية، ويتضمن ثلاث مهام فرعية: **المحادثة الفردية (Single-Turn)**، **المحادثة متعددة الأدوار (Multi-Turn)**، و**المهام غير القابلة للحل (Unsolvable)**. تهدف هذه المهام إلى تقييم ثلاث قدرات جوهرية لوكلاء النماذج: (1) القدرة على حل المشكلات بشكل مستقل، (2) التفاعل مع المستخدمين لاستنباط التفضيلات الضمنية، و(3) إدراك الحدود المتعلقة بالقدرات.
لضمان إنشاء تجربة مستدامة وتقييم قابل للإعادة، تم تخزين نتائج استدعاء الأدوات في بيئة آمنة تضم عشرة أدوات متعلقة بالسفر، مما يتيح للوكلاء دمج هذه الأدوات لحل معظم مشاكل تخطيط الرحلات العملية. تم تقييم عدة نماذج لغوية على معيار TravelBench وكشف أننا حتى النماذج المتقدمة تظهر تباينًا غير متوازن في الأداء عبر القدرات المختلفة. كما أظهر التحقق المنهجي اللاحق استقرار المعيار المقترح.
يوفر TravelBench معيارًا عمليًا وقابلًا للإعادة لتعزيز أبحاث الوكلاء الذكية في تخطيط الرحلات الواقعية. يعد هذا المعيار خطوة جديدة نحو توفير تجربة تخطيط سفر أكثر ديناميكية وملائمة للاحتياجات الحقيقية للمستخدمين.
تخطت حدود تخطيط الرحلات: تقييم واقعي لمهام السفر متعددة الأدوار واستخدام الأدوات
تمثل دراسة جديدة تحديًا لأداء نماذج اللغات الكبيرة (LLMs) في تخطيط الرحلات، حيث تم تطوير معيار جديد يهدف إلى تقييم قدرات هذه النماذج بشكل فعال. هذا المعيار يأتي مع مجموعة متنوعة من المهام الواقعية التي تعكس احتياجات المستخدمين الفعلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
