digilib@itb.ac.id +62 812 2508 8800

2023 TA TF Nethanael Adhitama Harijanto 13319003 _abstrak.pdf
Terbatas Rina Kania
» Gedung UPT Perpustakaan
» ITB

BAB 1 Nethanael Adhitama Harijanto
Terbatas Rina Kania
» Gedung UPT Perpustakaan
» ITB

BAB 2 Nethanael Adhitama Harijanto
Terbatas Rina Kania
» Gedung UPT Perpustakaan
» ITB

BAB 3 Nethanael Adhitama Harijanto
Terbatas  Rina Kania
» Gedung UPT Perpustakaan

BAB 4 Nethanael Adhitama Harijanto
Terbatas  Rina Kania
» Gedung UPT Perpustakaan

BAB 5 Nethanael Adhitama Harijanto
Terbatas  Rina Kania
» Gedung UPT Perpustakaan

DAFTAR Nethanael Adhitama Harijanto
Terbatas Rina Kania
» Gedung UPT Perpustakaan
» ITB

2023 TA TF Nethanael Adhitama Harijanto 13319003 LAMPIRAN.pdf
Terbatas  Rina Kania
» Gedung UPT Perpustakaan

COVER Nethanael Adhitama Harijanto
Terbatas Rina Kania
» Gedung UPT Perpustakaan
» ITB

Sistem pengenalan pengucap otomatis adalah suatu proses teknologi yang dapat dilakukan untuk mengidentifikasi identitas pengucap dari suara ucapannya. Sistem ini dapat digunakan untuk berbagai aplikasi di industri. Di Indonesia, sistem ini masih jarang ditemukan dan diaplikasikan karena sistem yang berbasis bahasa Indonesia belum memiliki performa yang mencukupi. Saat ini, sistem yang ada adalah sistem pengenalan berdasarkan skenario wawancara dan juga percakapan dengan data yang terbatas. Oleh karena itu diperlukan suatu sistem yang dilatih oleh data dari berbagai skenario dan juga dengan data yang lebih banyak, sehingga dapat menghasilkan sistem dengan galat yang lebih rendah. Sistem yang dibuat dalam penelitian ini adalah sistem pengenalan pengucap otomatis dengan model Identity Vector (i-vector). Sistem ini dilatih dan diuji dengan menggunakan basis data suara ucap berbahasa Indonesia yang diperoleh dari pengambilan data suara pada ruang semi-anechoic pada Laboratorium Akustik Adhiwijogo, Institut Teknologi Bandung. Kemudian dilakukan Data Augmentation pada data suara tersebut untuk menambahkan jumlahnya. Dalam sistem ini data suara ucap akan diekstraksi fiturnya dengan menggunakan Mel Frequency Cepstral Coefficient (MFCC). Selain koefisien MFCC sebesar 19+1 dimensi, digunakan juga nilai delta MFCC dan delta-delta MFCC yang masing-masing memiliki 20 dimensi agar didapatkan informasi perubahan suara untuk melengkapinya. Data yang telah diekstraksi fiturnya kemudian dimodelkan dengan pemodelan i-vector dengan menggunakan 32 komponen Gaussian dan 100 dimensi i-vector. Data latih yang digunakan berasal dari 2 gender (laki-laki dan perempuan) dan 5 skenario (artikel, digit, percakapan, vokal, dan wawancara). Selanjutnya dilakukan penilaian terhadap kemiripan sampel K dan UK dengan menggunakan perhitungan cosine distance. Penilaian performa sistem dilakukan dengan mengukur kemampuan sistem dalam mengenali sampel known (K) dan unknown (UK) berasal dari pengucap yang sama (target) atau tidak (non-target). Hasil dari penilaian tersebut adalah sebuah nilai Equal Error Rate (EER). Untuk skenario percakapan dan wawancara terdapat nilai EER dari penelitian terdahulu yaitu 6,41% dan 7,57% untuk pengucap laki-laki dan 12,78% dan 6,04% untuk pengucap perempuan, maka hasil penelitian ini untuk kedua skenario tersebut dibandingkan dengan penelitian terdahulu. Untuk skenario lainnya dilakukan perbandingan nilai EER antara sistem dengan DA dan tanpa DA. EER terendah dari pengucap laki-laki untuk setiap skenarionya adalah 2,29%, 6,39%, 4,32%, 6,44%, dan 3,72%, sedangkan untuk pengucap perempuan adalah 3,44%, 6,51%, 6,92%, 6,19%, dan 3,56%. Hasil ini menunjukkan penurunan sebesar 61,58%, 24,82%, 32,61%, 50,39%, dan 50,86% untuk laki-laki serta 39,65%, 40,82%, 45,85%, 56,19%, dan 41,06% jika dibandingkan dengan hasil penelitian terdahulu dan sistem tanpa penggunaan DA.