نمو modelos اللغات الضبابية: ثورة جديدة في التعرف على الكلام
تسعى نماذج اللغات الضبابية (Diffusion Language Models) لتحقيق تطور ملموس في مجال التعرف على الكلام، حيث تقدم تقنيات جديدة تعزز دقة الأداء. تعرف على كيفية دمج هذه النماذج للحصول على نتائج مذهلة!
في الآونة الأخيرة، ظهرت نماذج اللغات الضبابية (Diffusion Language Models) كبديل قوي للنماذج اللغوية التقليدية، وذلك لقدرتها على تحقيق انتباه ثنائي الاتجاه (bidirectional attention) وإنتاج نصوص بشكل متوازي (parallel text generation). في هذا المقال، نستعرض كيفية استخدامها في مجال التعرف على الكلام (Speech Recognition) ونتناول عدة تقنيات حديثة.
نقدم دليلاً شاملاً لدمج نماذج اللغات الضبابية المُخ masked diffusion language models (MDLM) ونماذج الضبابية بحالة موحدة (uniform-state diffusion models – USDMs) لاستعادة النقاط المحتملة التي تم تحديدها من خلال نظام التعرف على الكلام الآلي (ASR).
علاوة على ذلك، تم تصميم طريقة جديدة تدمج بين CTC وUSDM، من خلال دمج توزيعات الاحتمالات على مستوى الإطارات (framewise probability distributions) المشتقة من CTC، مع توزيعات الاحتمالات المعتمدة على الملصقات (labelwise probability distributions) المحسوبة بواسطة USDM في كل خطوة من خطوات التفكيك، مما يؤدي إلى توليد مرشحات جديدة تجمع بين المعرفة اللغوية القوية من USDM والمعلومات الصوتية من CTC.
تؤكد نتائج بحثنا أن كلا من USDM وMDLM يمكن أن يحسنا بشكل كبير من دقة النص المعترف به. نحن حريصون على مشاركة كافة الشيفرات والوصفات الخاصة بنا مع الجمهور للتأكيد على أهمية التطورات المستمرة في هذا المجال الشيق.
نقدم دليلاً شاملاً لدمج نماذج اللغات الضبابية المُخ masked diffusion language models (MDLM) ونماذج الضبابية بحالة موحدة (uniform-state diffusion models – USDMs) لاستعادة النقاط المحتملة التي تم تحديدها من خلال نظام التعرف على الكلام الآلي (ASR).
علاوة على ذلك، تم تصميم طريقة جديدة تدمج بين CTC وUSDM، من خلال دمج توزيعات الاحتمالات على مستوى الإطارات (framewise probability distributions) المشتقة من CTC، مع توزيعات الاحتمالات المعتمدة على الملصقات (labelwise probability distributions) المحسوبة بواسطة USDM في كل خطوة من خطوات التفكيك، مما يؤدي إلى توليد مرشحات جديدة تجمع بين المعرفة اللغوية القوية من USDM والمعلومات الصوتية من CTC.
تؤكد نتائج بحثنا أن كلا من USDM وMDLM يمكن أن يحسنا بشكل كبير من دقة النص المعترف به. نحن حريصون على مشاركة كافة الشيفرات والوصفات الخاصة بنا مع الجمهور للتأكيد على أهمية التطورات المستمرة في هذا المجال الشيق.
📰 أخبار ذات صلة

نماذج لغوية
كن مع الذكاء الاصطناعي: كل ما تحتاج معرفته عن التحديث الكبير لـ Claude Opus 4.7!
مارك تيك بوستمنذ 1 يوم
🤖
نماذج لغوية
ابتكار ثوري: كيفية تحسين أداء نماذج اللغة الكبيرة باستخدام KV Packet
أركايف للذكاءمنذ 2 يوم
🤖
نماذج لغوية
ثورة في تحسين نماذج اللغة: التدريب الذاتي التوقعي بين الأقران
أركايف للذكاءمنذ 2 يوم