digilib@itb.ac.id +62 812 2508 8800

Sistem rekognisi pengucap adalah teknologi yang digunakan untuk memverifikasi identitas pengucap dari suatu sampel suara ucap yang tidak diketahui. Di Indonesia, sistem ini secara aktif digunakan untuk membantu proses verifikasi pengucap sebagai barang bukti persidangan terpidana korupsi oleh lembaga pemberantas korupsi, Kepolisian dan Kejaksaan. Sistem rekognisi pengucap yang dibuat pada penelitian ini menggunakan pemodelan I-vector. Sistem ini dilatih dan diuji dengan menggunakan basis data suara ucap Laboratorium Akustik Teknik Fisika Institut Teknologi Bandung. Digunakan data uji sebanyak 46 data suara ucap laki-laki dan 52 data suara ucap perempuan dengan data latih 20 data pertama untuk masing-masing jenis kelamin dan skenario rekaman yang berbeda. Dalam sistem ini data suara ucap diekstraksi fitur sepstralnya, menggunakan koefisien Mels Frequency Cepstral Coefficients (MFCCs) sebanyak 19 dimensi koefisien bersama dengan 1 dimensi energi, 20 delta-MFCC, dan 20 delta-delta-MFCC. Data yang telah diekstraksi fiturnya dimodelkan dengan pemodelan I-vector dengan menggunakan 32 komponen Gaussian dan 100 dimensi fitur I-vector. Selanjutnya dilakukan penilaian terhadap kemiripan sampel Known (K) dan Unknown (UK) dengan menggunakan perhitungan cosine distance. Eksperimen yang telah dilakukan sebelumnya dengan basis data dan parameter yang sama telah mencapai hasil maksimum pada data skenario wawancara suara ucap perempuan dengan nilai Equal Error Rate (EER)= 3.50%. Pada penelitian ini sebuah upaya untuk meningkatkan performa sistem untuk rekognisi pengucap dari channel alat rekam suara ucap yang sama (same-channel) maupun berbeda (mismatch) dilakukan dengan menggunakan teknik Within-Class Covariance Normalization (WCCN). Sesuai hipotesis, teknik WCCN pada sistem rekognisi pengucap same- channel dan channel- mismatch dapat meningkatkan performa sistemnya. Pada eksperimen same- channel, didapatkan peningkatan performa sistem sebesar 31,43% dari penelitian sebelumnya dengan basis data dan parameter eksperimen yang sama tanpa WCCN. Nilai EER Eksperimen same- channel maksimum pada penelitian ini diperoleh sebesar 2.40% pada skenario wawancara perempuan. Dibanding sistem I-vector originalnya, sistem rekognisi pengucap dengan channel- mismatch menggunakan WCCN juga telah mengalami rata-rata peningkatan performa sebesar 33.75% pada setiap skenario. EER sistem rekognisi pengucap channel mismatch terbaik didapatkan pada skenario percakapan perempuan dengan EER= 20.52%. Kata Kunci: Sistem Rekognisi Pengucap, I-vector, cosine distance, same-channel, channel mismatch, Within-class Covariance Normalization, MFCC, Equal Error Rate.?