تحسين التعرف على الصوت: نحو تفاعل إنساني وتقويم دلالي مبتكر!
تشهد تقنية التعرف على الكلام (ASR) طفرة هائلة بتحسينات في الدقة والتفاعل. من خلال دمج تقييمات دلالية متقدمة، يمكن للتقنية تحقيق تفاعل أكبر يشبه البشر.
تسارعت وتيرة التطور في تقنية التعرف على الكلام (ASR) في السنوات الأخيرة بفضل الابتكارات في تصميم النماذج والبيانات التدريبية واسعة النطاق. ومع ذلك، لا تزال هناك جوانب هامة تنتظر الاستكشاف. أولاً، يُعتبر معدل خطأ الكلمات (WER) هو المعيار السائد في التقييم، لكنه يعامل جميع الكلمات بشكل متساوٍ وغالباً ما يفشل في عكس الدقة الدلالية للجملة ككل. ثانياً، تعتبر عملية التصحيح التفاعلي-нقد تعبيراً أساسياً في التواصل البشري، لكنها نادراً ما تُدَرَس بشكل منهجي في أبحاث ASR.
في هذا السياق، نقدم إطاراً جديداً يجمع بين هذين المنظورين لتطوير تقنيات ASR تفاعلية وفق إطار عامل. نقترح استخدام نماذج لغوية ضخمة (LLM) كمعيار تقييم دلالي لتقييم جودة التعرف على الكلام بشكل يتجاوز دقة الكلمات الفردية. كما صممنا إطاراً مدفوعاً بواسطة نماذج لغوية لتحفيز تفاعل متعدد الجولات يشبه حوار البشر، مما يمكّن من تحسين نتائج التعرف من خلال التعليقات الدلالية.
أجريت تجارب شاملة على معايير قياسية، بما في ذلك GigaSpeech (الإنجليزية)، وWenetSpeech (الصينية)، ومجموعة اختبار التبديل اللغوي ASRU 2019. أثبتت التقييمات الموضوعية والذاتية فعالية النموذج المقترح في تحسين دقة المعاني وقدرة التصحيح التفاعلي. وكجزء من جهودنا لدعم البحث المستقبلي، سنقوم بإصدار الشيفرة المستخدمة في هذا العمل.
في هذا السياق، نقدم إطاراً جديداً يجمع بين هذين المنظورين لتطوير تقنيات ASR تفاعلية وفق إطار عامل. نقترح استخدام نماذج لغوية ضخمة (LLM) كمعيار تقييم دلالي لتقييم جودة التعرف على الكلام بشكل يتجاوز دقة الكلمات الفردية. كما صممنا إطاراً مدفوعاً بواسطة نماذج لغوية لتحفيز تفاعل متعدد الجولات يشبه حوار البشر، مما يمكّن من تحسين نتائج التعرف من خلال التعليقات الدلالية.
أجريت تجارب شاملة على معايير قياسية، بما في ذلك GigaSpeech (الإنجليزية)، وWenetSpeech (الصينية)، ومجموعة اختبار التبديل اللغوي ASRU 2019. أثبتت التقييمات الموضوعية والذاتية فعالية النموذج المقترح في تحسين دقة المعاني وقدرة التصحيح التفاعلي. وكجزء من جهودنا لدعم البحث المستقبلي، سنقوم بإصدار الشيفرة المستخدمة في هذا العمل.
📰 أخبار ذات صلة
🤖
روبوتات
تيسلا تطلق خدمة روبوتاكسي في دالاس وهيوستن: ثورة جديدة في عالم التنقل!
تيك كرانشمنذ 1 يوم
🤖
روبوتات
انطلاقة جديدة في عالم الروبوتات: نموذج NVIDIA Isaac GR00T N1.7 يقدّم تقنيات استدلال متقدمة!
هاجينج فيسمنذ 2 يوم
🤖
روبوتات
رحلة الروبوتات: من حلم التعقيد البشري إلى واقع الذكاء الاصطناعي!
MIT للتقنيةمنذ 2 يوم