digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Jadequeline Marsha Pricila
PUBLIC Alice Diniarti

Image captioning adalah bagaimana sebuah komputer secara otomatis menghasilkan deskripsi tekstual berdasarkan persepsi visual kita. Untuk melakukan hal tersebut dibutuhkan kedua metode dari computer vision untuk memahami konten gambar dan pemrosesan bahasa alami untuk mengubah pemahaman tentang gambar menjadi kata-kata dalam urutan yang benar. Salah satu metode untuk mengatasi menghasilkan deskripsi berdasarkan konten gambar adalah dengan menggunakan generative adversarial network (GAN) yang tidak hanya mengandalkan maximum likelihood estimation (MLE). Namun proses dalam menghasilkan bahasa merupakan proses diskrit. Oleh sebab itu, memberikan secara langsung sampel diskrit sebagai input ke diskriminator tidak memungkinkan gradien untuk melakukan back-propagation karena operasi tersebut tidak dapat dibedakan. Pada proses pelatihan GAN, hal tersebut diatasi dengan menggunakan pendekatan dengan teknik reinforcement learning berdasarkan model SeqGAN. Secara umum, gradien dengan onpolicy memiliki varian yang tinggi dan membutuhkan lebih banyak sampel data untuk membangun pembaharuan berkualitas tinggi. Untuk mengatasi varian yang tinggi pada estimator gradien pada model SeqGAN, pada penelitian ini akan dilakukan perubahan reinforce gradient estimator dengan mengacu kepada penelitian augment-REINFORCEmerge (ARM) sehingga diharapkan proses ini mampu mengurangi varian pada SeqGAN dan mempengaruhi kinerja dari Image Captioning.???? Di akhir penelitian terlihat bahwa skor BLEU yang dihasilkan oleh model mampu meningkatkan akurasi skor BLEU. Khususnya pada model dengan jumlah 5 diskriminator. Tetapi pada beberapa gambar akan menghasilkan deskripsi yang tidak sesuai, ini dikarenakan diskriminator tidak dapat bekerja secara maksimal dalam mengklasifikasikan sampel palsu dengan sampel asli.