قفزة مذهلة في التواصل بين الوكلاء: بروتوكول A2A ثوري لتحسين الدقة
تمثل تقنية الإرسال القائم على النمط في الشبكات الوكيلة بديلاً قوياً يحسن من دقة المهام بنسبة 20%. من خلال استغلال السياق الغني، يمكن لهذه الابتكارات تحقيق نتائج مذهلة في معالجة البيانات متعددة الأنماط.
تواجه الشبكات الوكيلة تحديات كبيرة في الحفاظ على الإشارات متعددة الأنماط عبر الحدود بين الوكلاء، وهو أمر ضروري للدقة في الاستدلال بين الأنماط المختلفة. وفي هذا السياق، أظهرت الدراسات الحديثة أن استخدام بروتوكول جديد يعتمد على الإرسال القائم على النمط (Modality-Native Routing) في الشبكات الوكيلة (Agent-to-Agent networks) يحسن من دقة المهام بنسبة 20 نقطة مئوية مقارنة بالأساليب التقليدية المعتمدة على النصوص.
يتطلب هذا التحسين الاستفادة من السياق الغني الذي يحفظه الإرسال القائم على النمط، حيث يؤدي الاستدلال غير الفعال إلى تقليل الفجوة في الدقة بين الطرق المستخدمة. على سبيل المثال، عندما يتم استبدال الاستدلال المدعوم بنماذج اللغات الضخمة (Large Language Models) بمطابقة الكلمات الرئيسية، تختفي الفجوة تماماً.
تقدم الدراسة بروتوكول MMA2A، وهو طبقة معمارية فوق A2A، تستعرض قدرات الوكلاء لإرسال أجزاء البيانات مثل الصوت والصورة والنصوص بحسب النمط الأصلي لها. في اختبار (CrossModal-CS)، الذي يتضمن 50 مهمة متحكم بها مع نفس الخلفية الخاصة بنماذج اللغات، حقق بروتوكول MMA2A دقة في إنجاز المهام بنسبة 52%، مقارنة بـ 32% لطريقة نصية تقليدية.
تتركز المكاسب في المهام المعتمدة على الرؤية، حيث تحسن تقارير عيوب المنتجات بمقدار +38.5 نقطة مئوية، بينما زادت الدقة في استكشاف الأخطاء البصرية بمقدار +16.7 نقطة مئوية. ومع ذلك، تجدر الإشارة إلى أن هذه المكاسب تأتي بتكلفة زمنية مضاعفة قدرها 1.8 مرة نتيجة معالجة البيانات متعددة الأنماط.
تشير هذه النتائج إلى أن توجيه المعلومات هو عامل تصميم أساسي في أنظمة متعددة الوكلاء، حيث إنه يحدد المعلومات المتاحة للاستدلال المستقبلي.
يتطلب هذا التحسين الاستفادة من السياق الغني الذي يحفظه الإرسال القائم على النمط، حيث يؤدي الاستدلال غير الفعال إلى تقليل الفجوة في الدقة بين الطرق المستخدمة. على سبيل المثال، عندما يتم استبدال الاستدلال المدعوم بنماذج اللغات الضخمة (Large Language Models) بمطابقة الكلمات الرئيسية، تختفي الفجوة تماماً.
تقدم الدراسة بروتوكول MMA2A، وهو طبقة معمارية فوق A2A، تستعرض قدرات الوكلاء لإرسال أجزاء البيانات مثل الصوت والصورة والنصوص بحسب النمط الأصلي لها. في اختبار (CrossModal-CS)، الذي يتضمن 50 مهمة متحكم بها مع نفس الخلفية الخاصة بنماذج اللغات، حقق بروتوكول MMA2A دقة في إنجاز المهام بنسبة 52%، مقارنة بـ 32% لطريقة نصية تقليدية.
تتركز المكاسب في المهام المعتمدة على الرؤية، حيث تحسن تقارير عيوب المنتجات بمقدار +38.5 نقطة مئوية، بينما زادت الدقة في استكشاف الأخطاء البصرية بمقدار +16.7 نقطة مئوية. ومع ذلك، تجدر الإشارة إلى أن هذه المكاسب تأتي بتكلفة زمنية مضاعفة قدرها 1.8 مرة نتيجة معالجة البيانات متعددة الأنماط.
تشير هذه النتائج إلى أن توجيه المعلومات هو عامل تصميم أساسي في أنظمة متعددة الوكلاء، حيث إنه يحدد المعلومات المتاحة للاستدلال المستقبلي.

