digilib@itb.ac.id +62 812 2508 8800

Suara seseorang dapat mengandung banyak sekali informasi didalamnya: umur, bahasa, jenis kelamin, hingga emosi dan perasaan. Informasi-informasi tersebut dapat kita proses lebih jauh untuk membuat sebuah sistem yang dapat mengenali identitas seseorang dari suara ucapnya, sistem tersebut dikenal dengan sistem rekognisi pengucap. Terminologi ‘otomatis’ datang dari kemampuan sistem yang dapat bekerja tanpa terikat frasa yang diucapkan (text-independent). Teknologi ini telah lazim digunakan dan tersedia di berbagai bidang. Meskipun begitu, temuan-temuan baru dalam pengembangan sistem rekognisi pengucap menunjukan masih adanya ruang untuk pengembangan, terutama, dari kesuksesan temuan para peneliti dalam menggabungkan beragam metode ekstraksi fitur suara konvensional dengan teknologi neural network hingga deep learning. Kombinasi tersebut dianggap sukses mendongkrak performa sistem dalam menangkap informasi suara ucap yang terkandung, bahkan dalam kondisi tidak terkontrol sekalipun. Penelitian ini mengangkat metode rekognisi pengucap state-of-the-art, yaitu menggunakan 20 fitur Mel-frequency Cepstral Coefficient (MFCC) dari ekstraksi rekaman suara ucap, pemodelan Gaussian Mixture Model – Universal Background Model (GMM-UBM) untuk membangun matriks variabilitas dan reduksi dimensi, dan akhirnya dapat diperoleh fitur i-vector dari hasil proyeksi model yang dikenal memiliki performa “memuaskan” dalam sistem rekognisi pengucap otomatis. Bergerak dari i-vector, fitur tersebut akan digunakan sebagai data latih dalam neural network (NN) yang akan kita bangun. Konsep machine learning (ML) ini diterapkan untuk membuat model dari NN yang memiliki kemampuan prediksi lebih baik dari sistem rekognisi pengucap konvensional. Dalam proses machine learning, konfigurasi hyperparameters (jumlah node dan hidden layers, epoch, serta batch size) dalam Fully Connected Neural-Network (FCN), dievaluasi selama membangun model dan kita ambil kofigurasi terbaiknya. Basis data yang digunakan dalam penelitian ini menggunakan rekaman suara dengan penutur berbahasa indonesia, dalam beberapa skenario rekaman (wawancara, membaca artikel, percakapan) yang direkam melalui beberapa channel. Hasil yang diperoleh menunjukan peningkatan performa akurasi dan prediksi dari model yang dibuat dengan neural network. Dari 100 fitur i-vector & 32 gaussian yang di-input kedalam NN, kombinasi pengurangan jumlah hidden layer dan penambahan jumlah node menunjukkan peningkatan akurasi yang cukup signifikan. Equal error rate antara perhitungan skor i-vector dibanding metode baru yang digunakan pada kondisi baseline menunjukkan peningkatan: dari 7,57% ke 5,26%. Konfigurasi hyperparameter: 2 hidden layer, 2048 nodes, dengan aktivasi ReLU, dan dropout ratio 0,5 memberikan akurasi model 97,83%, didukung validation accuracy dari data test yang dibangun menunjukkan hasil yang konvergen tanpa tanda-tanda overfitting.