في عالم التجارة الإلكترونية المتسارع، يلعب الوكلاء الإلكترونيون (Web Agents) دورًا متزايد الأهمية في مساعدة المستخدمين على إتمام الصفقات واتخاذ القرارات. ولكن، كيف يمكننا تقييم قدرتهم بشكل فعّال؟

الرغم من الجهود المبذولة، فإن المعايير الحالية تركز بشكل أساسي على مهام بحث المنتجات، مثل العثور على ساعة آبل. وهذا يسلب الوكلاء من تقييم قدراتهم في مجموعة واسعة من المهام الأخرى التي تقدمها منصات التجارة الإلكترونية الحقيقية، كإدارة الحسابات وعمليات بطاقات الهدايا.

إلى جانب هذا، تعتمد المعايير الموجودة على إتمام الوكيل للطلب أو الاستفسار، لكنها تغفل المخاطر المحتملة التي قد تنجم عن ذلك. فمثلًا، قد يقوم الوكيل بشراء المنتج غير الصحيح أو حذف عنوان محفوظ، مما يسبب مشكلات للمستخدم.

لذلك، تم طرح معيار جديد يُدعى Amazon-Bench. يهدف هذا المعيار إلى تطوير بيئة تقييم أكثر شمولًا وموثوقية. من خلال إنشاء خط أنابيب لتوليد البيانات، يتم استغلال محتوى الصفحات الإلكترونية والعناصر التفاعلية، مثل الأزرار وصناديق الاختيار، لإنشاء استفسارات مستخدم تغطي مجموعة من المهام كتعديل العناوين وإدارة قوائم الرغبات.

لا يتوقف الأمر عند هذا الحد، بل يتم أيضاً تقديم إطار تقييم آلي يقيم الأداء والسلامة لكل وكيل. وقد أظهرت التقييمات أن الوكلاء الحاليين يعانون في التعامل مع الاستفسارات المعقدة مما قد يؤدي إلى مخاطر أمنية.

هذه النتائج تبرز الحاجة الملحة لتطوير وكلاء إلكترونيين أكثر قوة وموثوقية لاتخاذ القرارات في عالم التجارة الإلكترونية.