🤖 روبوتات1 دقائق للقراءة👁 0 مشاهدة

تحسين التعرف على الصوت: نحو تفاعل إنساني وتقويم دلالي مبتكر!

تشهد تقنية التعرف على الكلام (ASR) طفرة هائلة بتحسينات في الدقة والتفاعل. من خلال دمج تقييمات دلالية متقدمة، يمكن للتقنية تحقيق تفاعل أكبر يشبه البشر.

تسارعت وتيرة التطور في تقنية التعرف على الكلام (ASR) في السنوات الأخيرة بفضل الابتكارات في تصميم النماذج والبيانات التدريبية واسعة النطاق. ومع ذلك، لا تزال هناك جوانب هامة تنتظر الاستكشاف. أولاً، يُعتبر معدل خطأ الكلمات (WER) هو المعيار السائد في التقييم، لكنه يعامل جميع الكلمات بشكل متساوٍ وغالباً ما يفشل في عكس الدقة الدلالية للجملة ككل. ثانياً، تعتبر عملية التصحيح التفاعلي-нقد تعبيراً أساسياً في التواصل البشري، لكنها نادراً ما تُدَرَس بشكل منهجي في أبحاث ASR.

في هذا السياق، نقدم إطاراً جديداً يجمع بين هذين المنظورين لتطوير تقنيات ASR تفاعلية وفق إطار عامل. نقترح استخدام نماذج لغوية ضخمة (LLM) كمعيار تقييم دلالي لتقييم جودة التعرف على الكلام بشكل يتجاوز دقة الكلمات الفردية. كما صممنا إطاراً مدفوعاً بواسطة نماذج لغوية لتحفيز تفاعل متعدد الجولات يشبه حوار البشر، مما يمكّن من تحسين نتائج التعرف من خلال التعليقات الدلالية.

أجريت تجارب شاملة على معايير قياسية، بما في ذلك GigaSpeech (الإنجليزية)، وWenetSpeech (الصينية)، ومجموعة اختبار التبديل اللغوي ASRU 2019. أثبتت التقييمات الموضوعية والذاتية فعالية النموذج المقترح في تحسين دقة المعاني وقدرة التصحيح التفاعلي. وكجزء من جهودنا لدعم البحث المستقبلي، سنقوم بإصدار الشيفرة المستخدمة في هذا العمل.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة