يعتبر فهم الإشارات غير اللفظية أحد أهم العناصر في تحسين تفاعل الإنسان مع الحاسوب، إلا أن تقييم هذه الإشارات في النماذج اللغوية الكبيرة (Large Audio-Language Models - LALMs) يواجه تحديات كبيرة تتعلق بتغطية الخصائص وسلطة التقييم. لتجاوز هذه العقبات، تم تقديم معيار SpeechParaling-Bench، الذي يمثل خطوة نوعية في هذا المجال.

توسع هذا المعيار الجديد تغطية الخصائص من أقل من 50 إلى أكثر من 100 خاصية دقيقة، مدعوماً بأكثر من 1000 استعلام صوتي مطابق باللغة الإنجليزية والصينية. ينظم SpeechParaling-Bench المهام في ثلاث مراحل تدريجية من التحدي: التحكم الدقيق، تباين داخل التعبير، والتكيف السياقي.

لتقييم موثوق، تم تطوير عملية مقارنة ثنائية، حيث يتم تقييم الردود المرشحة مقارنة بقاعدة قياسية ثابتة بواسطة قضاة يعتمدون على LALM. من خلال تقديم التقييم كاختيار نسبي بدلاً من تقييم مطلق، تقلل هذه الطريقة من الذاتية وتحقق تقييمات أكثر استقرارًا وقابلية للتوسع دون الحاجة لتكاليف عالية من التعليقات البشرية.

تكشف التجارب الشاملة عن قيود كبيرة في النماذج الحالية؛ حيث تكافح النماذج المتقدمة للتعامل مع التحكم الثابت الشامل والتعديل الديناميكي في الخصائص غير اللفظية. كما أن الفشل في تفسير الإشارات غير اللفظية بشكل صحيح يمثل 43.3% من الأخطاء في الحوار السياقي.

تسلط هذه النتائج الضوء على ضرورة تطوير نماذج غير لفظية أقوى نحو مساعدات صوتية أكثر توافقًا مع الإنسان.