Image captioning adalah bagaimana sebuah komputer secara otomatis menghasilkan
deskripsi tekstual berdasarkan persepsi visual kita. Untuk melakukan hal tersebut
dibutuhkan kedua metode dari computer vision untuk memahami konten gambar dan
pemrosesan bahasa alami untuk mengubah pemahaman tentang gambar menjadi kata-kata
dalam urutan yang benar. Salah satu metode untuk mengatasi menghasilkan deskripsi
berdasarkan konten gambar adalah dengan menggunakan generative adversarial network
(GAN) yang tidak hanya mengandalkan maximum likelihood estimation (MLE). Namun
proses dalam menghasilkan bahasa merupakan proses diskrit. Oleh sebab itu, memberikan
secara langsung sampel diskrit sebagai input ke diskriminator tidak memungkinkan gradien
untuk melakukan back-propagation karena operasi tersebut tidak dapat dibedakan. Pada
proses pelatihan GAN, hal tersebut diatasi dengan menggunakan pendekatan dengan teknik
reinforcement learning berdasarkan model SeqGAN. Secara umum, gradien dengan onpolicy
memiliki varian yang tinggi dan membutuhkan lebih banyak sampel data untuk
membangun pembaharuan berkualitas tinggi. Untuk mengatasi varian yang tinggi pada
estimator gradien pada model SeqGAN, pada penelitian ini akan dilakukan perubahan
reinforce gradient estimator dengan mengacu kepada penelitian augment-REINFORCEmerge
(ARM) sehingga diharapkan proses ini mampu mengurangi varian pada SeqGAN dan
mempengaruhi kinerja dari Image Captioning.???? Di akhir penelitian terlihat bahwa skor
BLEU yang dihasilkan oleh model mampu meningkatkan akurasi skor BLEU. Khususnya
pada model dengan jumlah 5 diskriminator. Tetapi pada beberapa gambar akan
menghasilkan deskripsi yang tidak sesuai, ini dikarenakan diskriminator tidak dapat
bekerja secara maksimal dalam mengklasifikasikan sampel palsu dengan sampel asli.