في عالم الذكاء الاصطناعي، تعد نماذج اللغة الصوتية الكبيرة (Large Audio-Language Models - LALMs) واحدة من أبرز التطورات الحديثة، حيث تمثل قفزة نوعية في معالجة الصوت والتفاعل معه. لكن، على الرغم من الأداء القوي لهذه النماذج في العديد من المهام، إلا أن ظاهرة "الخيالات" (hallucination) تظل تحديًا غير مستكشف على نحو كافٍ. هذه الظاهرة تشير إلى حالات يقوم فيها النموذج بتوليد ردود غير دقيقة سواء من الناحية الدلالية أو الصوتية.

حاليًا، يتركز معظم التقييم لقياس الخيالات على بيانات النصوص أو الرؤية، بينما هناك قلة من الدراسات التي تتناول الصوت بشكل عميق. ومن هنا، تم الإعلان عن HalluAudio، كأول معيار كبير لتقييم الخيالات عبر الكلام والأصوات البيئية والموسيقى.

يتضمن HalluAudio أكثر من 5000 مجموعة من أسئلة وإجابات تم التحقق منها من قبل البشر، ويغطي أنواعًا متنوعة من المهام بما في ذلك أحكام ثنائية، والتفكير متعدد الخيارات، والتحقق من الخصائص، وإجابات مفتوحة. تمت صياغة تنبيهات موسعة ومتنوعة من خلال تصميم أسئلة معقدة وظروف صوتية مختلطة لتوليد خيالات بطريقة منهجية.

تتجاوز بروتوكولات التقييم التقليدية، حيث تقيس أيضًا معدلات الخيال، والتحيز، وتحليل أنواع الأخطاء، وكذلك معدل الرفض، مما يتيح تحليلًا شاملًا لطرق فشل نماذج LALM.

تمت مقارنة مجموعة واسعة من النماذج، كل من النماذج مفتوحة المصدر والخاصة، مما يوفر لأول مرة مقارنة موسعة لمدى فعاليتها عبر الكلام والأصوات والموسيقى. وكشفت النتائج عن عيوب كبيرة في الأسس الصوتية، والتفكير الزمني، وفهم خصائص الموسيقى، مما يبرز أهمية الحاجة إلى تطوير نماذج LALM تكون أكثر موثوقية وصلابة.