نمو modelos اللغات الضبابية: ثورة جديدة في التعرف على الكلام

في الآونة الأخيرة، ظهرت نماذج اللغات الضبابية (Diffusion Language Models) كبديل قوي للنماذج اللغوية التقليدية، وذلك لقدرتها على تحقيق انتباه ثنائي الاتجاه (bidirectional attention) وإنتاج نصوص بشكل متوازي (parallel text generation). في هذا المقال، نستعرض كيفية استخدامها في مجال التعرف على الكلام (Speech Recognition) ونتناول عدة تقنيات حديثة.

نقدم دليلاً شاملاً لدمج نماذج اللغات الضبابية المُخ masked diffusion language models (MDLM) ونماذج الضبابية بحالة موحدة (uniform-state diffusion models – USDMs) لاستعادة النقاط المحتملة التي تم تحديدها من خلال نظام التعرف على الكلام الآلي (ASR).

علاوة على ذلك، تم تصميم طريقة جديدة تدمج بين CTC وUSDM، من خلال دمج توزيعات الاحتمالات على مستوى الإطارات (framewise probability distributions) المشتقة من CTC، مع توزيعات الاحتمالات المعتمدة على الملصقات (labelwise probability distributions) المحسوبة بواسطة USDM في كل خطوة من خطوات التفكيك، مما يؤدي إلى توليد مرشحات جديدة تجمع بين المعرفة اللغوية القوية من USDM والمعلومات الصوتية من CTC.

تؤكد نتائج بحثنا أن كلا من USDM وMDLM يمكن أن يحسنا بشكل كبير من دقة النص المعترف به. نحن حريصون على مشاركة كافة الشيفرات والوصفات الخاصة بنا مع الجمهور للتأكيد على أهمية التطورات المستمرة في هذا المجال الشيق.

نمو modelos اللغات الضبابية: ثورة جديدة في التعرف على الكلام

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في نمذجة المستخدمين: قفزة مذهلة نحو شخصيات مُبنية على أدلة من سجلات السلوك!

قفزة مذهلة في نمذجة العالم: ثورة جديدة في التخطيط والتحكم للوكالات الم embodiment

ثورة في نماذج اللغة: كيف تم بناء Granite 4.1!