Sistem pengenalan pembicara merupakan sistem biometrik manusia dimana melakukan identifikasi seseorang dengan parameter suara. Identifikasi seseorang dapat dilakukan dengan memodelkan setiap karakteristik pembicara. Terdapat model pengenalan pembicara yang dianggap state-of-the-art yaitu model vektor-i. Seiring berkembangnya model pembelajaran mendalam banyak model yang dirancang dengan pembelajaran mendalam salah satunya, model vektor-x. Kinerja model vektor-x dianggap lebih baik dari model vektor-i, tetapi ada juga yang menganggap vektor-x tidak dapat mengungguli vektor-i. Model yang dibangun untuk sistem pengenalan pembicara pada tugas akhir ini adalah model vektor-i dan vektor-x. Model vektor-i merupakan model pembelajaran unsupervised, sementara model vektor-x merupakan model diskriminatif dimana proses pelatihan dilakukan dengan pembelajaran supervised. Data yang digunakan dalam penelitian merupakan data rekaman yang dikumpulkan sendiri untuk pengujian multi-channel dimana data direkam dengan alat handphone dan laptop. Jumlah pembicara yang terkumpul sebanyak 150 pembicara. Agar sistem pengenalan pembicara lebih robust menangani variabilitas pembicara, dilakukan proses augmentasi data terhadap data latih. Teknik augmentasi data yang diterapkan adalah mengubah kekuatan bunyi, penambahan white noise, pergeseran nada, peregangan waktu dan simulasi gema ruangan. Teknik ekstraksi fitur yang digunakan adalah MFCC dengan 60 fitur dan Fbank dengan 40 fitur. Kemudian fitur tersebut diproses dengan VAD dan CMVN. Pembangunan model vektor-i dilakukan ekstraksi vektor dengan 400 dimensi dengan memanfaatkan GMM 512 gaus. Sementara, model vektor-x diekstraksi dengan pembelajaran mendalam serta menerapkan LDA untuk
mengurangi dimensi vektor menjadi 200. Sistem backend untuk mengambil keputusan menggunakan metode PLDA serta matriks evaluasi yang digunakan EER.
Hasil pengujian menunjukkan bahwa model vektor-x dengan ekstraksi fitur MFCC memberikan nilai EER terendah dengan penggunaan seluruh data latih yaitu sebesar 0%. Model Vektor-x dengan fitur MFCC memberikan nilai EER yang stabil pada skema pengujian 5-fold cross-validation dengan nilai rata-rata EER sebesar 1.67%. Selain itu, pada pengujian data uji terhadap data enroll, tidak ada pembicara non-target yang teridentifikasi sebagai pembicara target.
Perpustakaan Digital ITB