
Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Pengembangan model pengenalan emosi berbasis multimodal dapat menggabungkan data teks, audio, dan visual untuk meningkatkan akurasi dalam mendeteksi sebuah emosi. Multimodal Machine Learning merupakan salah satu bidang dalam teknologi inteligensi artifisial yang berguna dalam memproses banyak modal seperti teks, audio, dan visual. Pada tugas akhir ini, pengembangan model multimodal dilakukan dengan memanfaatkan teknologi Transformer pada neural network. Pada Transformer sendiri terdapat mekanisme ‘attention’ yang dimanfaatkan untuk menggabungkan ketiga jenis modalitas. Mekanisme tersebut digunakan untuk memproyeksikan masing – masing modalitas dengan dirinya dan modalitas lain. Terdapat tiga jenis dataset yang digunakan dalam penelitian ini yaitu MELD, CMU-MOSEI, dan IEMOCAP. Hasil dari penelitian ini adalah sebuah model dengan arsitektur Transformer dengan nilai metrik akurasi 63% pada dataset MELD, 49% pada dataset CMU-MOSEI, dan rata – rata 78% untuk setiap emosi pada dataset IEMOCAP.