Diarisasi emosi merupakan proses untuk mengidentifikasi label emosi pada
segmen-segmen homogen sekuensial dalam aliran sinyal suara. Proses ini dapat
dilakukan untuk meningkatkan sistem pengenalan emosi percakapan yang telah
dikembangkan hingga saat ini. Sistem pengenalan emosi percakapan yang telah ada
memiliki keterbatasan dalam mengidentifikasi emosi pada audio berdurasi panjang
dan juga pada penanganan segmentasi audio menjadi segmen-segmen.
Pembangunan sistem diarisasi emosi memungkikan untuk memproses input audio
percakapan panjang utuh tanpa segmentasi manual dan memberikan output label
emosi untuk setiap segmen di stempel waktu tertentu.
Penelitian diarisasi emosi masih minim dilakukan terutama untuk percakapan
dalam Bahasa Indonesia. Meskipun struktur sistem diarisasi pembicara dapat
diadaptasi, model hasil penelitian diarisasi pembicara relatif sulit untuk diterapkan
dalam penelitian diarisasi emosi karena adanya perbedaan karakteristik dan
representasi fitur antara identitas yang bersifat diskrit dan bisa dikelompokkan
dengan keadaan emosi pembicara yang bersifat lebih abstrak dan perlu
didefinisikan kelasnya. Dengan demikian, perlu diinvestigasi arsitektur dan
algoritma yang dapat menangani tugas diarisasi emosi ini.
Dalam penelitian Tesis ini, diusulkan arsitektur jaringan saraf yang memanfaatkan
representasi fitur tingkat segmen dan frame dengan menggunakan kombinasi model
encoder berbasis RNN, dan model classifier berbasis RNN-CRF. Model encoder
digunakan untuk mengekstrak representasi frame setiap segmen. Model classifier
digunakan untuk melakukan pelabelan emosi sekuensial pada sekuens segmen.
Selanjutnya, diselidiki juga pengaruh penambahan kode peran pembicara pada fitur
untuk membantu model dalam mengenali emosi. Eksperimen dilakukan untuk
memilih algoritma model classifier, menentukan ukuran segmen yang akan
digunakan, memilih fitur yang paling optimal, menentukan algoritma encoder, dan
menentukan metode penambahan kode peran pembicara. Eksperimen dilakukan
untuk menghasilkan sistem diarisasi emosi yang memberikan kinerja paling
optimal.
Berdasarkan hasil eksperimen, arsitektur dan algoritma yang diusulkan
memberikan kinerja pengenalan emosi yang paling baik diantara baseline.
Arsitektur Hybrid LSTM-BiLSTM-CRF dengan penambahan kode peran
pembicara memberikan nilai F1-score sebesar 0.6318. Hal ini menunjukkan
peningkatan sekitar 9% dibandingkan dengan algoritma dan arsitektur baseline
pada domain bahasa Indonesia.