Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Sistem voice spoofing detection adalah sistem yang digunakan untuk membedakan audio suara asli manusia dengan suara palsu. Suara palsu di antaranya adalah suara yang dihasilkan oleh TTS. Penelitian oleh Xuechen, dkk. (2024) menunjukkan bahwa model voice spoofing detection yang dilatih menggunakan data audio jangka pendek mengalami penurunan kinerja yang signifikan ketika dievaluasi pada data audio jangka panjang. Salah satu model yang biasa digunakan pada model voice spoofing detection adalah RawNet2. Namun, RawNet2 memiliki kelemahan adanya informasi yang hilang terutama pada data audio panjang karena penggunaan max pooling pada sinc filter dan residual block yang memperkuat visibilitas informasi penting, namun secara tidak langsung menurunkan visibilitas informasi yang dipandang tidak penting. Pada data audio panjang terutama yang heterogen, informasi penting tersebar diseluruh bagian audio. Oleh sebab itu, penelitian ini melakukan pembuatan model voice spoofing detection untuk audio jangka panjang dengan memanfaatkan wav2vec 2.0 sebagai freeze feature extractor dan menggantikan layer sinc filter dan residual block pada arsitektur RawNet2.
Model yang diusulkan menghasilkan kinerja model yang lebih baik daripada model baseline RawNet2 pada semua dataset yang dibuat. Pada dataset audio jangka pendek dengan absolut margin EER 0.97%, pada dataset audio jangka panjang dengan absolut margin 7.62%, dan pada dataset audio jangka panjang skala 10 kali lipat dengan absolut margin 7.93%
Perpustakaan Digital ITB