في خطوة رائدة نحو استخدام الذكاء الاصطناعي في تحليل الأصوات، تم اقتراح إطار عمل جديد يعتمد على التعلم العميق لاكتشاف تزييف الصوت البيئي (Environmental Sound Deepfake Detection). يهدف هذا البحث إلى تحديد ما إذا كان المشهد الصوتي أو الحدث الصوتي الموجود في تسجيل صوتي معين هو مزيف أم لا.

للتحقق من فعالية هذا النظام، أُجريت تجارب مكثفة لفحص تأثير الطيفات الصوتية (spectrograms) المختلفة، إلى جانب مجموعة واسعة من بنى الشبكات العصبية والنماذج المدربة مسبقًا. وكشفت النتائج أن استخدام التحسين الدقيق (finetuning) لنموذج تم تدريبه مسبقاً يعطي نتائج أفضل بكثير مقارنة بتدريب نموذج جديد من الصفر.

أدت التجارب على مجموعات بيانات مرجعية مثل EnvSDD و ESDD-Challenge-TestSet إلى نتائج مبهرة، حيث حقق النموذج الأمثل دقة تصل إلى 98% في مجموعة بيانات EnvSDD، و88% في مجموعة ESDD-Challenge-TestSet. كما نجح في تحقيق نقاط F1 تبلغ 0.95 و0.77 على التوالي، مما يدل على كفاءة النموذج في تمييز الأصوات الحقيقية عن المزيفة.

تحمل هذه النتائج أهمية كبيرة في مجالات متعددة كالأمن السيبراني، تحليل الوسائط، والمراقبة البيئية، مما يفتح آفاق جديدة لمكافحة التزييف الصوتي ومعالجة التحديات المرتبطة بها.