تعد هلوسات نماذج اللغة الصوتية (Speech Large Language Models - SpeechLLMs) خطرًا كبيرًا يهدد دقة وأمان هذه النماذج، إلا أن الأساليب الحالية للكشف عن هذه الظاهرة تعتمد غالبًا على مخرجات معيارية (gold-standard outputs) باهظة التكلفة أو صعبة التحقيق. علاوة على ذلك، فإن الأساليب المستخدمة في الكشف عن هلوسات نماذج اللغة النصية (text-based LLMs) لا تأخذ في اعتبارها الإشارات الخاصة بالصوت.

في دراسة جديدة، تم استكشاف أربعة مقاييس مشتقة من الانتباه، وهي: AUODIORATIO وAUDIOCONSISTENCY وAUDIOENTROPY وTEXTENTROPY، وذلك بهدف التقاط الأنماط المرضية المرتبطة بالهلوسة. تم تدريب مصنفات انحدار لوجستي خفيفة الوزن على هذه الميزات للكشف عن الهلوسة بشكل فعال أثناء استدلال النماذج.

أظهرت التقييمات التي أُجريت على مهام التعرف على الكلام الآلي (automatic speech recognition) والترجمة من الكلام إلى نص (speech-to-text translation) باستخدام Qwen-2-Audio وVoxtral-3B أن نهجنا يتفوق على الأساليب التقليدية التي تعتمد على عدم اليقين والاهتمام السابق، بعد أن حقق تحسنًا ملحوظًا يصل إلى +0.23 في نسبة المساحة تحت المنحنى (PR-AUC)، ونجح في تعميم النتائج على بيانات خارج نطاق النموذج.

كما تبين أن الأداء القوي يمكن تحقيقه باستخدام حوالي 100 رأس من رؤوس الانتباه، مما يحسن من تعميم النموذج عند استخدامه في بيئات أخرى.

وعلى الرغم من أن فعالية هذه الأساليب تعتمد على النموذج نفسه، إلا أن النتائج أثبتت أن أنماط الانتباه تعد أداة ثمينة للكشف عن الهلوسات في نماذج اللغة الصوتية.