ABSTRAK Muhammad Zaydan Athallah
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Terbatas  Esha Mustika Dewi
» Gedung UPT Perpustakaan
Identifikasi pembicara merupakan proses untuk mengenali identitas seseorang berdasarkan karakteristik unik dari suaranya. Teknologi ini memanfaatkan fitur-fitur akustik seperti intonasi, resonansi, dan pola artikulasi untuk membedakan antar individu. Sistem identifikasi pembicara memiliki peran penting dalam berbagai bidang, termasuk keamanan biometrik, layanan pelanggan otomatis, serta personalisasi aplikasi digital. Namun, seiring bertambahnya jumlah pengguna, sistem ini menghadapi tantangan dalam hal efisiensi pencocokan dan kecepatan respon saat bekerja pada skala besar dimana jumlah pembicara yang terdaftar berjumlah ribuan hingga jutaan. Penelitian ini bertujuan merancang dan mengoptimalkan sistem identifikasi pembicara yang tetap akurat dan cepat. Proses dimulai dengan mengekstrak ciri khas dari suara berupa Mel-Frequency Cepstral Coefficients (MFCC), yang dapat menangkap karakteristik unik dari suara seseorang. Secara teknis, karakteristik ini berupa koefisien numerik yang merepresentasikan daya dari sinyal suara dalam domain frekuensi dan dikompresi berdasarkan skala mel yang meniru cara manusia mendengar frekuensi. Ciri-ciri ini kemudian diubah menjadi representasi numerik sederhana yang disebut i-vector , yang telah dikenal sebagai salah satu pendekatan paling efektif dan banyak digunakan dalam sistem identifikasi pembicara. Untuk meningkatkan kemampuan sistem dalam membedakan suara dari pembicara yang berbeda, digunakan metode Linear Discriminant Analysis (LDA) yang memaksimalkan jarak antar kelas. Setelah itu, ukuran data dikurangi menggunakan Principal Component Analysis (PCA). Sebagai langkah akhir, sistem ini menerapkan Locality Sensitive Hashing (LSH), sebuah teknik pencarian approximate nearest neighbor yang memungkinkan pencocokan dilakukan hanya pada sebagian kecil data, bukan seluruh data. Eksperimen dilakukan menggunakan dataset suara dari Youtube yang dikumpulkan sendiri dan terdiri atas 1.500 pembicara unik. Pengujian terhadap 1.000 hingga 1.500 pembicara diperoleh akurasi di atas 98% dan mempercepat proses pencarian hingga 90 kali dibandingkan pencarian biasa. Hasil ini membuktikan bahwa pendekatan yang diusulkan cocok untuk sistem identifikasi pembicara berskala besar, bahkan ketika dijalankan dengan sumber daya komputasi yang terbatas.
Perpustakaan Digital ITB