digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Yana Muhamadinah
PUBLIC Irwan Sofiyan

COVER _ Yana.pdf
PUBLIC Irwan Sofiyan

BAB I _ Yana.pdf
PUBLIC Irwan Sofiyan

BAB II _ Yana.pdf
PUBLIC Irwan Sofiyan

BAB III _ Yana.pdf
PUBLIC Irwan Sofiyan

BAB IV_ Yana.pdf
PUBLIC Irwan Sofiyan

BAB V_ Yana.pdf
PUBLIC Irwan Sofiyan

PUSTAKA Yana Muhamadinah
PUBLIC Irwan Sofiyan

LAMPIRAN_ Yana.pdf
PUBLIC Irwan Sofiyan

Sistem pengenalan bahasa terucap adalah sistem yang mampu mengenali bahasa yang ada dalam suatu rekaman suara. Sistem pengenalan bahasa memiliki kegunaan yang sangat bervariasi dalam sistem pengenalan ucap multibahasa, seperti asisten suara (voice assistant), penghubung panggilan otomatis (automatic call routing), pencarian dokumen (document retrieving), dan sebagainya. Sistem pengenalan suara memiliki dua strategi, yaitu identifikasi dan verifikasi. Sistem identifikasi akan menentukan bahasa yang ada dalam sebuah rekaman suara dan mengelompokkan rekaman tersebut kedalam kelas bahasa tertentu. Sedangkan sistem verifikasi akan menentukan apakah rekaman tersebut adalah rekaman dalam bahasa uji atau tidak (yes or no problem). Penelitian sistem pengenalan bahasa dan pengenalan ucap secara umum telah mengarah pada penerapan sistem dalam kondisi sebenarnya. Untuk itu, sistem pengenalan bahasa memerlukan data suara yang dapat merepresentasikan kondisi sebenarnya yang memiliki kondisi rekaman dan kualitas suara yang berbeda-beda. Beberapa variabilitas yang mungkin terdapat pada data suara adalah perbedaan jenis microphone yang digunakan saat merekam, bising latar belakang, kondisi dengung sekitar, suara tumpang tindih, dan perbedaan pengucapan (vocal efforts). Variabilitas yang tinggi menyulitkan sistem untuk bekerja optimal pada data suara yang belum dikenali. Beberapa metode dikembangan untuk mengatasi variabilitas tersebut, diantara dengan melakukan normalisasi menggunakan within-class covariance normalization (WCCN) dan mengurangi dimensi fitur yang tidak terlalu penting dengan linear discriminant analysis (LDA). Sistem pengenalan bahasa dengan menggunakan bahasa daerah sebagai data uji juga menjadi salah satu bidang riset yang banyak dilakukan. Dalam sistem pengenalan bahasa, sistem klasifikasi menggunakan metode pembelajaran mesin yang sangat dipengaruhi oleh karakteristik data. Bahasa merupakan dataset biometris yang berasal dari manusia sehingga karakteristiknya sangat dipengaruhi oleh berbagai faktor seperti ras, budaya, demografi, dan faktor terlihat lainnya. Faktor-faktor atau kombinasi faktor tersebut akan mempengaruhi nada, konsep grammatikal, dan hirarki dari suatu bahasa. Sistem pengenalan bahasa yang dilatih pada suatu dataset perlu disesuaikan ketika akan digunakan pada dataset yang berbeda. Dengan begitu, penelitian sistem pengenalan bahasa daerah menjadi relevan. Sistem pengenalan bahasa daerah pada penelitian ini menggunakan bahasa Jawa, Melayu, dan Sunda. Pada penelitian ini akan digunakan data suara yang tidak terkondisi yang didapatkan dari audio YouTube dan rekaman oleh partisipan. Audio dari YouTube memiliki variabilitas channel, pebedaan pengucapan, bising latar belakang, dan kondisi dengung yang tinggi. Rekaman suara yang dikumpulkan dari partisipan direkam dengan channel, software, dan kondisi rekaman yang berbeda-beda. Total data suara yang digunakan dalam penelitian adalah 222 data suara dengan rincian 102 data suara berasal dari YouTube dan 120 dari rekaman suara partisipan. Total durasi dari tiap dataset bahasa daerah adalah 44.5 menit, 98.8 menit, dan 74.4 menit untuk bahasa Jawa, Melayu, dan Sunda secara berurutan. Seluruh dataset dibagi menjadi dua set, 60% or 133 data suara digunakan sebagai set latih dan 40% atau 89 data suara digunakan sebagai set uji. Sistem yang dibangun akan menggunakan metode energy-based voice activity detection (VAD) dan fast robust VAD (rVAD fast), ekstraksi fitur mel-frequency cepstral coefficients (MFCC) dan shifted delta cesptral coefficients (SDCC), dan model i-vector. Pengklasifikasian bahasa dilakukan dengan menggunakan lima metode pembelajaran mesin, yaitu support vector machine (SVM), logistic regression (LR), K-nearest neighbors (KNN), multilayer perceptron (MLP), dan random forest (RF). Selanjutnya, WCCN dan LDA diterapkan pada sistem untuk menormalisasi variabilitas pada data tidak terkondisi. Kinerja sistem dievaluasi menggunakan beberapa metrik, yaitu cost average detection (Cavg), nilai F1, dan akurasi. Hasil eksperimen menunjukkan bahwa kinerja terbaik didapat dengan menggunakan model i-vector dan klasifier KNN yang ditunjukkan dengan nilai cost average detection sebesar 0.011, 0.011, 0.051 pada durasi 30, 10, 3 detik. Kinerja terbaik ini didapatkan ketika menggunakan model i-vector, klasifier KNN, energy-based VAD dan tanpa penggunaan normalisasi. Dengan kombinasi metode tersebut didapatkan nilai F1 sebesar 96%, 98%, dan 92% dan akurasi sebesar 97%, 98%, dan 92% untuk durasi 30 detik, 10 detik, dan 3 detik secara berurutan.