13518111 M. Mirza Fathan Al Arsyad.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Informasi dalam bahasa lisan tidak hanya tersampaikan melalui kata-kata, akan tetapi juga melalui frekuensi fundamental (pitch), intensitas (volume), kecepatan berbicara dan ritme, dan timbre, yang istilah-istilah tersebut secara kolektif disebut dengan prosodi. Model berbasis jaringan saraf tiruan dibangun untuk membuat sistem klasifikasi emosi ucapan berbahasa Indonesia. Prosodi sebagai fitur dalam sebuah ucapan sudah lama menjadi bahan penelitian di berbagai tempat. Sudah banyak penelitian yang membahas mengenai pemodelan fitur prosodi untuk berbagai kegunaan, seperti automatic speech recognition, identifikasi emosi, klasifikasi dialogue act, dan banyak penelitian lainnya yang merupakan bentuk eksplorasi terhadap fitur prosodi dalam percakapan.
Untuk membangun model pengenal emosi, digunakan sebuah korpus yang berisi berbagai ucapan yang disegmentasi dari berbagai sumber audio berbahasa Indonesia. Kemudian pada korpus tersebut dilakukan ekstraksi fitur dengan menggunakan set fitur seperti eGeMAPS dan INTERSPEECH 2009. Serta kemudian dilakukan pembuatan model berbasis jaringan saraf tiruan dengan menggunakan hasil ekstraksi tersebut.
Fitur prosodi digunakan untuk melatih sistem, dan hasil eksperimen menunjukkan nilai f-measure sebesar 0.39 untuk sistem dengan set fitur eGeMAPS yang dijadikan sebagai baseline dari penelitian. Eksperimen kemudian memberikan hasil tertinggi sebesar 0.568 dengan menggunakan set fitur eGeMAPS yang diseleksi menjadi 14 set fitur prosodi, dan model dibangun dengan menggunakan optimasi SMOTE untuk menangani ketidakseimbangan kelas pada dataset. Berbagai macam metode optimasi jaringan saraf tiruan lainnya juga dieksplorasi pada penelitian ini, misalnya dropout layer, early stopping juga principal component analysis sebagai upaya menurunkan dimensi dari dataset.