في عالمٍ يتزايد فيه استخدام نماذج اللغة الكبيرة (Large Language Models) في معالجة الصوت، تطرح مخاطر جديدة تتعلق بخصوصية الأفراد الذين يتواجدون بالقرب من تلك الأنظمة. قد تلتقط هذه الأنظمة حديث المتفرجين غير المقصودين، مما يزيد من الحاجة إلى استراتيجيات فعالة للحماية.

لتلبية هذا التحدي، تم تطوير معيار SH-Bench، وهو الأول من نوعه الذي يهدف إلى تقييم مفهوم "السمع الانتقائي"، أي قدرة النموذج على التركيز على المتحدث الرئيسي مع تجاهل معلومات المتحدثين الآخرين. يحتوي SH-Bench على 3,968 مزيجًا صوتيًا لعدة متحدثين، بما في ذلك سيناريوهات حقيقية وصناعية، مصحوبة بـ 77,000 سؤال خيارات متعددة للتحقق من مدى قدرة النماذج في العمليات العامة والانتقائية.

كذلك، نُقدم مقياس "الفعالية الانتقائية" (Selective Efficacy - SE)، الذي يُعتبر مؤشراً جديداً يقيس فهم المتحدثين المتعددين وحماية خصوصية المتفرجين. من خلال تقييم نماذج الدولة الرائدة، أظهرت النتائج تسرباً كبيراً لخصوصية المتفرجين، حيث كانت الفهم الصوتي المتفوق لا يترجم إلى حماية انتقائية فعالة.

ولمعالجة هذه الفجوة، تم تقديم تقنية "تدريب تحسين خصوصية المتفرجين" (Bystander Privacy Fine-Tuning - BPFT)، وهي خط أنابيب تدريبي جديد يُعلم النماذج الرفض التام للاستفسارات المتعلقة بالمتفرجين دون التأثير على فهم المتحدث الرئيسي.

أظهرت النتائج أن BPFT يُسجل زيادة ملحوظة، حيث حقق دقة أعلى بحوالي 47% للمتفرجين في الوضع الانتقائي و16% في المقاييس الخاصة بالفعالية الانتقائية، مقارنة بأفضل نموذج صوتي متاح بدون BPFT.

مع توفير كل من SH-Bench وBPFT إطار عمل منهجي لتقييم وتحسين خصوصية المتفرجين في نماذج اللغة الصوتية، يبدو أن هناك خطوات حقيقية نحو بيئة أكثر أماناً للأفراد حولنا.