digilib@itb.ac.id +62 812 2508 8800

Abstrak
PUBLIC karya

Pemanfaatan deep learning dalam pembangkitan deskripsi gambar atau image captioning merupakan praktik yang umum. Walaupun demikian, teks yang dihasilkan oleh metode ini dinilai kurang menarik apabila dibandingkan dengan teks deskripsi yang ditulis oleh manusia. Faktor yang berperan dalam hal ini adalah tidak adanya kandungan aspek non-faktual seperti emosi atau sentimen dalam kalimat yang dibangkitkan oleh mesin. Kondisi yang sama terjadi di Indonesia, dimana tidak adanya dataset deskripsi gambar berbahasa Indonesia menjadi faktor utama yang menyulitkan terlaksananya penelitian-penelitian dalam topik terkait. Situasi inilah yang melahirkan pokok tujuan dari penelitian ini, yaitu membangun arsitektur deep learning yang mampu membangkitkan teks komentar berbahasa Indonesia yang menarik dari gambar dengan melibatkan aspek emosi. Demi mencapai tujuan ini, penelitian ini menulis ulang label dataset Flickr 8K dan Flickr 10K (Gan dkk., 2017) ke dalam bentuk Bahasa Indonesia, serta menambahkan label-label baru dengan emosi senang, sedih, dan marah. Arsitektur yang direalisasikan mengadopsi framework encoder-decoder yang lazim dipakai dalam pembangkitan deskripsi gambar (Vinyals dkk., 2015) dan mengadaptasi model sentiment cell (You dkk., 2018) yang diklaim dapat mengolah informasi sentimen dalam pembangkitan deskripsi. Model yang dibangun dalam penelitian ini menerima masukan berupa gambar dan mengembalikan keluaran berupa teks komentar. Komponen encoder, diperankan oleh ResNet-152 (He dkk., 2015) akan mengekstrak vektor visual gambar untuk diteruskan ke decoder. Decoder diimplementasi dengan memodifikasi jumlah sentiment state yang terdapat dalam modul LSTM sentiment cell. Dari hasil eksperimen, ditemukan bahwa model yang menangani beberapa emosi sekaligus cenderung menghasilkan teks dengan kualitas kualitas teks yang lebih rendah, sedangkan model dengan emosi tunggal dapat menghasilkan kualitas teks yang konsisten untuk training dataset dengan jumlah yang tidak seimbang.