في عالم يتطور باستمرار حيث تتزايد الحاجة لتقنيات الذكاء الاصطناعي في الوقت الحقيقي، يبرز تقدم جديد في مجال استخراج الصوت المستهدف (Target Speaker Extraction - TSE) باستخدام نماذج اللغة التوليدية. بينما عملت هذه النماذج على تحسين المعايير بشكل كبير، كانت تعاني من قيود أداء حادة عند التكيف مع السيناريوهات الزمنية.
كشفت الأبحاث الأخيرة عن نموذج autoregressive (AR) مبتكر تم تصميمه خصيصًا لهذه التطبيقات الزمنية. يعتمد هذا النموذج على تقنية تُدعى “Chunk-wise Interleaved Splicing Paradigm”، والتي تتيح استخراج الصوت المستهدف بشكل فعّال ومستقر أثناء البث. من خلال تقديم آلية لتحسين السياق التاريخي، يمكن لهذا النموذج تقليل الفجوات في الحدود والحفاظ على تماسك المقاطع الصوتية المستخرجة.
أظهرت التجارب على مجموعة بيانات Libri2Mix أن الأداء ينخفض عند استخدام النماذج التوليدية التقليدية عندما تكون زمن الاستجابة منخفضة. لكن النموذج الجديد استطاع الحفاظ على ثبات بنسبة 100% وفهم أعلى للخطاب. وظهر أيضًا أن نتائجه في البث المباشر تعد مُنافسة أو تتفوق على النماذج المستخدمة في السيناريوهات غير المباشرة.
علاوة على ذلك، حقق هذا النموذج عامل زمن فعلي قدره 0.248 على وحدات معالجة الرسومات المخصصة للمستهلكين، مما يُظهر أنه يمكن الاعتماد على النماذج التوليدية الوقت الحقيقي في التطبيقات الحساسة للزمن. إن هذه التطورات تعد دليلاً قويًا على إمكانية اعتماد نماذج AR generative في المستقبل القريب لعالم الذكاء الاصطناعي المتسارع.
ثورة في استخراج الصوت المستهدف: نموذج لغة تفاعلي يخطف الأنفاس
تقدم الأبحاث الحديثة نموذجًا مبتكرًا لاستخراج الصوت المستهدف في الوقت الفعلي باستخدام نماذج توليدية متقدمة. هذه الطريقة تضمن أداءً ثابتًا وفهمًا أعلى للخطاب أثناء البث المباشر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
