تحسين التعرف على الصوت: نحو تفاعل إنساني وتقويم دلالي مبتكر!

تسارعت وتيرة التطور في تقنية التعرف على الكلام (ASR) في السنوات الأخيرة بفضل الابتكارات في تصميم النماذج والبيانات التدريبية واسعة النطاق. ومع ذلك، لا تزال هناك جوانب هامة تنتظر الاستكشاف. أولاً، يُعتبر معدل خطأ الكلمات (WER) هو المعيار السائد في التقييم، لكنه يعامل جميع الكلمات بشكل متساوٍ وغالباً ما يفشل في عكس الدقة الدلالية للجملة ككل. ثانياً، تعتبر عملية التصحيح التفاعلي-нقد تعبيراً أساسياً في التواصل البشري، لكنها نادراً ما تُدَرَس بشكل منهجي في أبحاث ASR.

في هذا السياق، نقدم إطاراً جديداً يجمع بين هذين المنظورين لتطوير تقنيات ASR تفاعلية وفق إطار عامل. نقترح استخدام نماذج لغوية ضخمة (LLM) كمعيار تقييم دلالي لتقييم جودة التعرف على الكلام بشكل يتجاوز دقة الكلمات الفردية. كما صممنا إطاراً مدفوعاً بواسطة نماذج لغوية لتحفيز تفاعل متعدد الجولات يشبه حوار البشر، مما يمكّن من تحسين نتائج التعرف من خلال التعليقات الدلالية.

أجريت تجارب شاملة على معايير قياسية، بما في ذلك GigaSpeech (الإنجليزية)، وWenetSpeech (الصينية)، ومجموعة اختبار التبديل اللغوي ASRU 2019. أثبتت التقييمات الموضوعية والذاتية فعالية النموذج المقترح في تحسين دقة المعاني وقدرة التصحيح التفاعلي. وكجزء من جهودنا لدعم البحث المستقبلي، سنقوم بإصدار الشيفرة المستخدمة في هذا العمل.

تحسين التعرف على الصوت: نحو تفاعل إنساني وتقويم دلالي مبتكر!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم الإعلانات: جوجل تدمج الإعلانات في مساعدها الذكي Gemini!

ثورة جديدة في الذكاء الاصطناعي: تقييم استخدام الذاكرة الاستراتيجية في حوارات الشخصيات الافتراضية

مفاجأة في عالم السيارات الذاتية: استجابة الطوارئ تكتشف تدهور تقنيات وايمو