# ثورة جديدة في فهم الفيديوهات: عندما تتداخل الأصوات مع الواقع!

في الوقت الحالي، تعد الفيديوهات الشخصية (Egocentric Videos) من الوسائل المهمة لفهم الأنشطة والسياقات المحيطة بالمستخدم. حيث تعتبر الأصوات جزءًا أساسيًا لفهم هذه الأنشطة، خاصة عندما تكون المعلومات البصرية غير مستقرة أو محجوبة بسبب الحركة المستمرة للكاميرا. ومع ذلك، يكشف بحث جديد أن النماذج اللغوية السمعية البصرية المتقدمة (Audio-Visual Language Models - AV-LLMs) قد تعاني من "الهلاوس الصوتية"، حيث تستنتج أصواتًا من معطيات بصرية يمكن رؤيتها لكن لا يمكن سماعها.

التحليل الجديد للهلاوس الصوتية



هذا البحث يبرز أهمية الدراسة المنهجية لهلاوس الصوت، من خلال تنفيذ إطار تقييم آلي يستند إلى بروتوكول الأسئلة والأجوبة (Q/A)، حيث تم إنشاء مجموعة بيانات تضم 300 فيديو شخصي مُصمَّمة بعناية. تم تطوير 1000 سؤال يركز على الصوت للتحقق من استجابات النماذج.

لتحديد تفاصيل هذه الهلاوس، تم اقتراح تصنيف مُعتمد يميز بين أصوات الأنشطة الأولية التي يقوم بها المستخدم والأصوات المحيطية الخلفية.

اسفرت التقييمات عن نتائج مثيرة للقلق، حيث أظهرت نماذج AV-LLMs المتقدمة مثل Qwen2.5 Omni معدلات هلاوس عالية جداً، حيث حققت فقط 27.3% و39.5% من الدقة على الأسئلة المتعلقة بالأصوات الأمامية والخلفية على التوالي.

أهمية التحقق من الاستجابات



تشدد هذه النتائج على ضرورة قياس موثوقية الاستجابات المتعددة، مما يدل على أهمية التقييم الدقيق للهلاوس الصوتية في تطوير نماذج AV-LLMs موثوقة. مع تقدم التكنولوجيا، يبقى السؤال: كيف يمكننا تحسين دقة وفهم هذه النماذج في معالجة البيانات السمعية والبصرية؟

إذا كنت مهتمًا بمجال الذكاء الاصطناعي وما يثيره من قضايا، فهذا هو الوقت المناسب لاستكشاف المزيد!