MERRIN: ثورة في استرجاع الأدلة المتعددة الوسائط في بيئات الإنترنت المربكة
تقدم MERRIN معيارًا فريدًا لتقييم قدرات الوكلاء الذكيين في استرجاع الأدلة المتعددة الوسائط، مما يعكس تحديات البحث على الإنترنت. هذا المعيار يكشف عن فعالية وكالات الذكاء الاصطناعي في معالجة المعلومات المربكة.
في ظل التحديات المتزايدة التي تفرضها بيئات الإنترنت المليئة بالمعلومات المربكة والمتنوعة، تم طرح معيار مبتكر يُعرف بـ MERRIN (استرجاع الأدلة المتعددة الوسائط والتفكير في بيئات الإنترنت المربكة). يتناول هذا المعيار القدرة على تقييم الأداء الفعلي لوكلاء الذكاء الاصطناعي في معالجة استرجاع المعلومات متعددة الوسائط، وتمييز الأنماط الهامة وسط المعلومات المتضاربة.
تكمن ميزة MERRIN في أنه يعكس طبيعة البحث الفعال من خلال طرح استفسارات بلغة طبيعية، مما يجعل الأداة أكثر قرباً من طريقة استخدام البشر لمحركات البحث. كما تمتاز بتضمينها أنماطًا لم يتم استغلالها بشكل كافٍ، مثل الفيديو والصوت، ويعتمد مقياسها على قدرة الوكلاء في استرجاع أدلة معقدة وغالبًا ما تكون غير متسقة أو متعارضة خلال عمليات البحث.
تتضمن الاختبارات التي تم إجراؤها استخدام عشرة نماذج مختلفة، بما في ذلك نماذج مغلقة المصدر مثل GPT-5.4-mini وGemini 3/3.1، مما يظهر أن MERRIN يمثل تحديًّا حقيقيًّا، حيث بلغ متوسط الدقة عبر جميع الوكلاء 22.3%، مع الأداء الأفضل الذي لم يتجاوز 40.1%.
النتائج تشير إلى أن بعض النماذج الأكثر قوة كـ Gemini Deep Research تحقق أداءً أعلى، لكنها تستخدم موارد أكبر دون نتائج ملحوظة، ما يعكس مشكلة التشتت أمام المحتوى المتضارب. مقارنةً بالبشر، تسجل هذه الوكلاء نتائج أقل في الدقة، مما يبرز أهمية تطوير وكالات البحث القادرة على التعامل بفعالية مع الوسائط المتعددة في بيئات الإنترنت المليئة بالتحديات. هذا يجعل MERRIN منصة اختبار ضرورية لتقييم هذه القدرات الجديدة.
تكمن ميزة MERRIN في أنه يعكس طبيعة البحث الفعال من خلال طرح استفسارات بلغة طبيعية، مما يجعل الأداة أكثر قرباً من طريقة استخدام البشر لمحركات البحث. كما تمتاز بتضمينها أنماطًا لم يتم استغلالها بشكل كافٍ، مثل الفيديو والصوت، ويعتمد مقياسها على قدرة الوكلاء في استرجاع أدلة معقدة وغالبًا ما تكون غير متسقة أو متعارضة خلال عمليات البحث.
تتضمن الاختبارات التي تم إجراؤها استخدام عشرة نماذج مختلفة، بما في ذلك نماذج مغلقة المصدر مثل GPT-5.4-mini وGemini 3/3.1، مما يظهر أن MERRIN يمثل تحديًّا حقيقيًّا، حيث بلغ متوسط الدقة عبر جميع الوكلاء 22.3%، مع الأداء الأفضل الذي لم يتجاوز 40.1%.
النتائج تشير إلى أن بعض النماذج الأكثر قوة كـ Gemini Deep Research تحقق أداءً أعلى، لكنها تستخدم موارد أكبر دون نتائج ملحوظة، ما يعكس مشكلة التشتت أمام المحتوى المتضارب. مقارنةً بالبشر، تسجل هذه الوكلاء نتائج أقل في الدقة، مما يبرز أهمية تطوير وكالات البحث القادرة على التعامل بفعالية مع الوسائط المتعددة في بيئات الإنترنت المليئة بالتحديات. هذا يجعل MERRIN منصة اختبار ضرورية لتقييم هذه القدرات الجديدة.
📰 أخبار ذات صلة
🤖
أبحاث
منصّة DeepER-Med: ثورة في البحث الطبي المعتمد على الأدلة مع الذكاء الاصطناعي الفعال
أركايف للذكاءمنذ 3 ساعة
🤖
أبحاث
GIST: ثورة في استخراج المعرفة متعددة الأنماط وتوجيه الأماكن باستخدام الذكاء الاصطناعي!
أركايف للذكاءمنذ 3 ساعة
🤖
أبحاث
ثورة في أنظمة التفاعل: عقود مراجعة المعتقدات المسجلة مسبقًا
أركايف للذكاءمنذ 3 ساعة