تحسين أداء التعرف على الكلام الأوتوماتيكي في المجال الطبي للغات الدرافيدية

يعاني التعرف على الكلام الأوتوماتيكي (ASR) في اللغات الدرافيدية مثل التيلوجو والكانادا من تحديات كبيرة بسبب قلة البيانات المعلّمة وتعقيد التركيبة اللغوية. في هذا الإطار، يقدم بحث جديد نهجًا مبتكرًا يدعى "إطار التدريب الواعي بالثقة"، حيث يدمج بين بيانات الكلام الحقيقية والصناعية من خلال آلية تجمع بين قياسات الإدراك الثابتة وقياسات التشابه الصوتي مع ديناميات انتروبيا النموذج.

بدلاً من أساليب تحسين النموذج المباشرة، يعتمد النهج المقترح على استراتيجيات تجميع الثقة ذات الأوزان الثابتة والقابلة للتعلم، مما يسهل الاستفادة الفعّالة من مصادر البيانات المتنوعة. تم تقييم هذا الإطار على مجموعات بيانات طبية باللغة التيلوجو والكانادا تحتوي على تسجيلات حقيقية ونماذج صوتية مولّدة.

علاوة على ذلك، تم تطبيق نموذج لغة KenLM (5-gram) لتصحيح النتيجة بعد عملية فك التشفير. وقد أظهرت النتائج أن استخدام النهج الهجين الواعي بالثقة مع الأوزان القابلة للتعلم يقلل بشكل ملحوظ من أخطاء التعرف: حيث انخفض معدل خطأ الكلمات (WER) في التيلوجو من 24.3% إلى 15.8%، وتحسن معدل WER في الكانادا من 31.7% إلى 25.4%. جميع هذه النتائج تفوقت بشكل ملحوظ على الأساليب التقليدية للتحسين. هذه الأدلة تؤكد أن دمج التدريب الواعي بالثقة مع النمذجة اللغوية الإحصائية يوفر أداءً متفوقًا لتطبيقات ASR المخصصة في اللغات الدرافيدية المعقدةMorphologically complex.

تحسين أداء التعرف على الكلام الأوتوماتيكي في المجال الطبي للغات الدرافيدية

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!