Pengenalan emosi melalui sinyal ucapan telah dikembangkan dalam berbagai bahasa termasuk bahasa Indonesia. Emosi yang dapat dikenali oleh sistem pengenal emosi dari sinyal ucapan berbahasa Indonesia sejauh ini terdapat empat kelas emosi yaitu angry, happiness, contentment dan sadness. Empat kelas ini dianggap mewakili emosi manusia secara menyeluruh yang sering muncul dalam kehidupan sehari – hari.
Pada tesis ini dibangun model untuk pengenalan emosi dari sinya ucapan dalam ucapan berbahasa indonesia menggunakan fitur akustik dan leksikal. Fitur akustik mencakup fitur spectral, ceptral, voicing-related, energy, pitch contour, jitter dan shimmer. Sedangkan fitur leksikal mencakup Bag-of-words dan TF-IDF. Dari fitur tersebut akan dicari mana model terbaik dari tiga kelompok yaitu model akustik, model leksikal dan model gabungan. Fitur-fitur tersebut didapatkan dari proses ekstraksi korpus emosi yang dikumpulkan beserta dengan transkrip pembicaraannya.
Pengujian model dilakukan terhadap data uji yang berjumlah 100 segmen yang mencakup empat emosi dalam ucapan bahasa Indonesia. Model akustik, leksikal dan model gabungan dibangun dengan menggunakan data development yang berjumlah 982 segmen. Skenario eksperimen untuk pembangunan model menggunakan 5-fold cross validation, teknik yang digunakan untuk pemodelan meliputi Naive Bayes, Random Forest dan Support Vector Machine (SVM). Hasil dari eksperimen ini menunjukkan model akustik memiliki akurasi F-measure 0.4098 dengan teknik Random Forest, model leksikal 0.40361 dengan teknik Random Forest dan model gabungan 0.40823. Kemudian hasil pengujian dengan data uji didapatkan akurasi terbaik sebesar 0.476 pada model gabungan TFIDF menggunakan SVM RBF kernel.