Suara seseorang dapat mengandung banyak sekali informasi didalamnya: umur, bahasa,
jenis kelamin, hingga emosi dan perasaan. Informasi-informasi tersebut dapat kita proses
lebih jauh untuk membuat sebuah sistem yang dapat mengenali identitas seseorang dari
suara ucapnya, sistem tersebut dikenal dengan sistem rekognisi pengucap. Terminologi
‘otomatis’ datang dari kemampuan sistem yang dapat bekerja tanpa terikat frasa yang
diucapkan (text-independent). Teknologi ini telah lazim digunakan dan tersedia di
berbagai bidang. Meskipun begitu, temuan-temuan baru dalam pengembangan sistem
rekognisi pengucap menunjukan masih adanya ruang untuk pengembangan, terutama,
dari kesuksesan temuan para peneliti dalam menggabungkan beragam metode ekstraksi
fitur suara konvensional dengan teknologi neural network hingga deep learning.
Kombinasi tersebut dianggap sukses mendongkrak performa sistem dalam menangkap
informasi suara ucap yang terkandung, bahkan dalam kondisi tidak terkontrol sekalipun.
Penelitian ini mengangkat metode rekognisi pengucap state-of-the-art, yaitu
menggunakan 20 fitur Mel-frequency Cepstral Coefficient (MFCC) dari ekstraksi
rekaman suara ucap, pemodelan Gaussian Mixture Model – Universal Background Model
(GMM-UBM) untuk membangun matriks variabilitas dan reduksi dimensi, dan akhirnya
dapat diperoleh fitur i-vector dari hasil proyeksi model yang dikenal memiliki performa
“memuaskan” dalam sistem rekognisi pengucap otomatis. Bergerak dari i-vector, fitur
tersebut akan digunakan sebagai data latih dalam neural network (NN) yang akan kita
bangun. Konsep machine learning (ML) ini diterapkan untuk membuat model dari NN
yang memiliki kemampuan prediksi lebih baik dari sistem rekognisi pengucap
konvensional. Dalam proses machine learning, konfigurasi hyperparameters (jumlah
node dan hidden layers, epoch, serta batch size) dalam Fully Connected Neural-Network
(FCN), dievaluasi selama membangun model dan kita ambil kofigurasi terbaiknya. Basis
data yang digunakan dalam penelitian ini menggunakan rekaman suara dengan penutur
berbahasa indonesia, dalam beberapa skenario rekaman (wawancara, membaca artikel,
percakapan) yang direkam melalui beberapa channel.
Hasil yang diperoleh menunjukan peningkatan performa akurasi dan prediksi dari model
yang dibuat dengan neural network. Dari 100 fitur i-vector & 32 gaussian yang di-input
kedalam NN, kombinasi pengurangan jumlah hidden layer dan penambahan jumlah node
menunjukkan peningkatan akurasi yang cukup signifikan. Equal error rate antara
perhitungan skor i-vector dibanding metode baru yang digunakan pada kondisi baseline
menunjukkan peningkatan: dari 7,57% ke 5,26%. Konfigurasi hyperparameter: 2 hidden
layer, 2048 nodes, dengan aktivasi ReLU, dan dropout ratio 0,5 memberikan akurasi
model 97,83%, didukung validation accuracy dari data test yang dibangun menunjukkan
hasil yang konvergen tanpa tanda-tanda overfitting.