ABSTRAK Edia Zaki Naufal Ilman
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Deteksi dan pelokalan suara deepfake merupakan tantangan penting dalam menjaga integritas konten audio, terutama dalam konteks bahasa Indonesia yang masih minim dijelajahi. Penelitian ini mengusulkan pendekatan gabungan antara Light Convolutional Neural Network (LCNN) dan Bidirectional Long Short-Term Memory (BiLSTM) untuk mendeteksi serta melokalisasi segmen deepfake dalam audio berbahasa Indonesia. Dataset dikembangkan secara khusus dan terdiri dari tiga subset: (1) suara asli berbahasa Indonesia yang diperoleh dari sumber terbuka dan tertutup dalam lingkungan terkendali, (2) suara palsu penuh yang dihasilkan menggunakan model text-to-speech (TTS) dan voice conversion (VC) multibahasa atau yang telah dilatih pada data berbahasa Indonesia, serta (3) suara palsu sebagian yang dibuat dengan menyisipkan potongan suara palsu ke dalam audio asli dan juga sebaliknya. Sebagai masukan, digunakan delapan fitur patologis dan fitur spektral konvensional berupa Linear Frequency Cepstral Coefficients (LFCC). Meskipun fitur patologis secara individu belum melampaui performa LFCC, kombinasi keduanya meningkatkan akurasi lokalisasi secara signifikan. Penelitian ini menunjukkan potensi fitur patologis dan arsitektur LCNN-BiLSTM dalam meningkatkan sistem lokalisasi suara deepfake untuk bahasa Indonesia.
Perpustakaan Digital ITB