Penggunaan rekaman suara sebagai salah satu alat bukti hukum di persidangan telah diterapkan di Indonesia. Sebelum menjadi bukti sah di persidangan, rekaman suara yang perlu analisis secara ilmiah kebenarannya. Sejak tahun 2008, Laboratorium Akustik Teknik Fisika ITB telah melakukan pengembangan sistem verifikasi pengucap sampel suara ucap untuk membantu proses verifikasi pengucap sampel suara ucap secara forensik.
Secara konvensional, sistem verifikasi yang digunakan adalah berbasis text-dependent dimana sistem membutuhkan informasi dari konten ucap. Sistem ini terdiri dari empat tahap, yaitu: pencocokan kata atau frase, penandaan atau pelabelan suku kata atau fonem, ekstraksi fitur, dan analisis statistik. Pada tahap pencocokan yaitu konten ucap yang sama antara suatu sampel suara yang dipertanyakan identitasnya unknown (UK) dicocokan dengan suatu sampel suara yang telah diketahui identitasnya known (K). Proses pencocokan dan penandaan pada konten ucap tersebut menyebabkan sistem ini memerlukan waktu yang relatif lama.
Hal tersebut mendorong adanya pengembangan sistem verifikasi pengucap otomatis untuk keperluan forensik berbasis text-independent. Dengan menggunakan metode text-independent sistem tidak memerlukan informasi mengenai kata-kata apa yang diucapkan pengucap untuk dapat mengetahui identitas pengucap sehingga dapat mempersingkat tahap analisis.
Pengembangan sistem verifikasi pengucap otomatis dilakukan dengan menggunakan basis data suara ucap berbahasa Indonesia untuk keperluan fase latih dan fase uji. Basis data suara ucap dibangun dengan dua skenario yaitu wawancara dan percakapan natural untuk mensimulasikan kondisi forensik yang sebenarnya. Fitur pengucap didapatkan dari data suara ucap menggunakan Mel Frequency Cepstral Coefficient (MFCC) dengan total 60 dimensi dari 19+1 dimensi MFCC, 20 dimensi delta MFCC dan 20 dimensi delta-delta MFCC. Pemodelan pengucap dilakukan dengan menggunakan penggabungan Gaussian Mixture Model (GMM) dengan Universal Background Model (UBM). Sejumlah 128 dan 256 komponen Gaussian digunakan untuk memodelkan konfigurasi dari saluran vokal pengucap. Model GMM didapatkan dari adaptasi oleh UBM yang merepresentasikan model kelompok pengucap diluar sampel K. Skor kemiripan antara sampel K dan UK didapatkan menggunakan Likelihood Ratio. Performa sistem verifikasi diukur untuk dapat mengenali sampel K dan UK berasal dari pengucap sama (target) atau pengucap berbeda (nontarget) dengan ukuran performa sistem menggunakan Equal Error Rate (EER). Tiga teknik normalisasi skor yaitu Zero Normalization (Z-norm), Test-Normalization (T-norm) dan ZT-norm implementasikan untuk menurunkan nilai EER.
Terdapat 45 data suara ucap Laki-Laki dan 45 data suara ucap Perempuan yang dibangun untuk menguji sistem. Pengujian sistem didasarkan atas perbedaan jumlah komponen Gaussian, jenis kelamin, skenario perekaman dan teknik normalisasi. Penggunaan Z-norm dan ZT-norm secara signifikan berhasil menurunkan nilai EER. Hasil EER terbaik yang dapat diraih adalah sebesar 4.66 % untuk untuk skenario wawancara laki-laki dengan parameter jumlah gaussian 256 hasil dari z-norm.