digilib@itb.ac.id +62 812 2508 8800

Diarisasi emosi merupakan proses untuk mengidentifikasi label emosi pada segmen-segmen homogen sekuensial dalam aliran sinyal suara. Proses ini dapat dilakukan untuk meningkatkan sistem pengenalan emosi percakapan yang telah dikembangkan hingga saat ini. Sistem pengenalan emosi percakapan yang telah ada memiliki keterbatasan dalam mengidentifikasi emosi pada audio berdurasi panjang dan juga pada penanganan segmentasi audio menjadi segmen-segmen. Pembangunan sistem diarisasi emosi memungkikan untuk memproses input audio percakapan panjang utuh tanpa segmentasi manual dan memberikan output label emosi untuk setiap segmen di stempel waktu tertentu. Penelitian diarisasi emosi masih minim dilakukan terutama untuk percakapan dalam Bahasa Indonesia. Meskipun struktur sistem diarisasi pembicara dapat diadaptasi, model hasil penelitian diarisasi pembicara relatif sulit untuk diterapkan dalam penelitian diarisasi emosi karena adanya perbedaan karakteristik dan representasi fitur antara identitas yang bersifat diskrit dan bisa dikelompokkan dengan keadaan emosi pembicara yang bersifat lebih abstrak dan perlu didefinisikan kelasnya. Dengan demikian, perlu diinvestigasi arsitektur dan algoritma yang dapat menangani tugas diarisasi emosi ini. Dalam penelitian Tesis ini, diusulkan arsitektur jaringan saraf yang memanfaatkan representasi fitur tingkat segmen dan frame dengan menggunakan kombinasi model encoder berbasis RNN, dan model classifier berbasis RNN-CRF. Model encoder digunakan untuk mengekstrak representasi frame setiap segmen. Model classifier digunakan untuk melakukan pelabelan emosi sekuensial pada sekuens segmen. Selanjutnya, diselidiki juga pengaruh penambahan kode peran pembicara pada fitur untuk membantu model dalam mengenali emosi. Eksperimen dilakukan untuk memilih algoritma model classifier, menentukan ukuran segmen yang akan digunakan, memilih fitur yang paling optimal, menentukan algoritma encoder, dan menentukan metode penambahan kode peran pembicara. Eksperimen dilakukan untuk menghasilkan sistem diarisasi emosi yang memberikan kinerja paling optimal. Berdasarkan hasil eksperimen, arsitektur dan algoritma yang diusulkan memberikan kinerja pengenalan emosi yang paling baik diantara baseline. Arsitektur Hybrid LSTM-BiLSTM-CRF dengan penambahan kode peran pembicara memberikan nilai F1-score sebesar 0.6318. Hal ini menunjukkan peningkatan sekitar 9% dibandingkan dengan algoritma dan arsitektur baseline pada domain bahasa Indonesia.