MAS-Bench: المعيار الثوري لإثراء وكيل واجهات المستخدم على الأجهزة المحمولة بالاختصارات
تقدم MAS-Bench معياراً جديداً لتقييم الوكلاء الهجينين في تطبيقات الهواتف المحمولة، حيث يجمع بين استخدام واجهات المستخدم والاختصارات. هذه المنصة تمثل خطوة كبيرة نحو تحسين كفاءة الوكلاء الذكيين وتحقيق أداء أفضل.
في عالم يتسارع فيه التطور التكنولوجي، تظهر الحاجة إلى أدوات قادرة على تحسين تجربة المستخدم على الهواتف المحمولة. هنا يأتي دور MAS-Bench، المعيار الجديد الواعد الذي يفتح آفاقاً جديدة لدراسة أداء وكلاء واجهات المستخدم الهجين (Hybrid GUI Agents) مع التركيز بشكل خاص على تطبيقات الهواتف المحمولة.
تتمثل الفكرة الأساسية لـ MAS-Bench في دمج الاختصارات مثل واجهات برمجة التطبيقات (APIs) والروابط العميقة (Deep Links) مع عمليات واجهة المستخدم العادية، مما يعزز مرونة العمليات ويساعد في إنشاء نموذج هجين واعد لأتمتة الهواتف المحمولة باستخدام نماذج اللغات الضخمة (MLLM).
واحدة من أبرز الميزات التي يقدمها MAS-Bench هي قدرته على تقييم قدرة الوكلاء على توليد اختصارات بشكل تلقائي من خلال اكتشاف وإنشاء مسارات عمل قابلة لإعادة الاستخدام وبتكلفة منخفضة. يتضمن المعيار 139 مهمة معقدة عبر 11 تطبيقاً واقعياً، بالإضافة إلى قاعدة معرفة تتضمن 88 اختصاراً محدداً مسبقاً و9 مقاييس تقييم.
أظهرت التجارب أن الوكلاء الهجينين يحققون نسبة نجاح تصل إلى 68.3% وكفاءة تنفيذ أكبر بنسبة 39% مقارنة بالنماذج التي تعتمد على واجهات المستخدم فقط. كما يساهم إطار التقييم في تسليط الضوء على الفجوة النوعية بين الاختصارات المحددة مسبقاً وتلك التي يتم إنشاؤها بواسطة الوكلاء، مما يعزز قدرة المعيار على تقييم أساليب توليد الاختصارات.
بفضل MAS-Bench، يمكن الآن سد الفجوة الموجودة في معايير تقييم الوكلاء الهجينين للهواتف المحمولة، مما يمهد الطريق لتطورات مستقبلية في إنشاء وكلاء ذكيين أكثر كفاءة وقوة. للمزيد من المعلومات، يمكنكم زيارة الصفحة الرسمية للمشروع: [MAS-Bench](https://pengxiang-zhao.github.io/MAS-Bench).
تتمثل الفكرة الأساسية لـ MAS-Bench في دمج الاختصارات مثل واجهات برمجة التطبيقات (APIs) والروابط العميقة (Deep Links) مع عمليات واجهة المستخدم العادية، مما يعزز مرونة العمليات ويساعد في إنشاء نموذج هجين واعد لأتمتة الهواتف المحمولة باستخدام نماذج اللغات الضخمة (MLLM).
واحدة من أبرز الميزات التي يقدمها MAS-Bench هي قدرته على تقييم قدرة الوكلاء على توليد اختصارات بشكل تلقائي من خلال اكتشاف وإنشاء مسارات عمل قابلة لإعادة الاستخدام وبتكلفة منخفضة. يتضمن المعيار 139 مهمة معقدة عبر 11 تطبيقاً واقعياً، بالإضافة إلى قاعدة معرفة تتضمن 88 اختصاراً محدداً مسبقاً و9 مقاييس تقييم.
أظهرت التجارب أن الوكلاء الهجينين يحققون نسبة نجاح تصل إلى 68.3% وكفاءة تنفيذ أكبر بنسبة 39% مقارنة بالنماذج التي تعتمد على واجهات المستخدم فقط. كما يساهم إطار التقييم في تسليط الضوء على الفجوة النوعية بين الاختصارات المحددة مسبقاً وتلك التي يتم إنشاؤها بواسطة الوكلاء، مما يعزز قدرة المعيار على تقييم أساليب توليد الاختصارات.
بفضل MAS-Bench، يمكن الآن سد الفجوة الموجودة في معايير تقييم الوكلاء الهجينين للهواتف المحمولة، مما يمهد الطريق لتطورات مستقبلية في إنشاء وكلاء ذكيين أكثر كفاءة وقوة. للمزيد من المعلومات، يمكنكم زيارة الصفحة الرسمية للمشروع: [MAS-Bench](https://pengxiang-zhao.github.io/MAS-Bench).
📰 أخبار ذات صلة
أبحاث
إستراتيجيات التجسس: كيف تستخدم NSA نموذج Mythos الذكي من Anthropic؟
تيك كرانشمنذ 2 ساعة
أبحاث
اختراق جديد في الدفاع السيبراني: OpenAI تطلق GPT-5.4-Cyber لدعم المدافعين المعتمدين
مارك تيك بوستمنذ 10 ساعة
أبحاث
منصّة DeepER-Med: ثورة في البحث الطبي المعتمد على الأدلة مع الذكاء الاصطناعي الفعال
أركايف للذكاءمنذ 14 ساعة