Pariwisata Indonesia memiliki banyak potensi karena berkaitan dengan alam dan
budaya sangat beragam yang dapat dikembangkan menjadi destinasi pariwisata.
Dengan penambahan deskripsi secara otomatis dapat digunakan dalam suatu
aplikasi untuk menyarankan tempat yang ingin dikunjungi. Image captioning
merupakan suatu task yang berkaitan dengan pembangkitan deskripsi gambar
secara otomatis. Perkembangan image captioning ini berlanjut dengan
dikembangkannya model berbasis attention. Penelitian Xu dkk. (2015)
mengembangkan model CNN-LSTM dengan menambahkan attention didalamnya.
Penelitian tentang image captioning pada domain pariwisata Indonesia sudah
pernah dilakukan oleh Fudholi dkk. (2021). Penelitian tersebut juga menggunakan
arsitektur CNN-LSTM dengan attention seperti penelitian Xu dkk. (2015). Teknik
yang dikembangkan pada penelitian tersebut adalah mengganti algoritma untuk
feature extraction yaitu VGG16 dengan algoritma feature extraction yang lebih
baru yaitu EfficientNet.
Penelitian sebelumnya dari Fudholi dkk. (2021) masih menggunakan model
sequential untuk bagian language model. Hal tersebut dikarenakan model
sequential memiliki permasalahan dalam long-range context dependencies yaitu
ketika kalimat sudah panjang model sequence akan sulit menangkap jika ada
hubungan pada kata awal dan kata akhir. Permasalahan lain pada model sequential
yaitu ketika memproses data perlu menunggu hasil kata perkata. Masalah lain yang
muncul pada image captioning dengan caption berbahasa Indonesia adalah low
resource availability. Hal tersebut menyebabkan kurangnya keberagaman dalam
pembangunan caption. Keberagaman caption yang dihasilkan model adalah suatu
yang penting karena caption yang dihasilkan menjadi tidak membosankan dengan
menggunakan kata-kata yang sama.
Pada tesis ini telah dilakukan penelitian tentang model image captioning berbasis
transformers untuk menyelesaikan permasalahan yang ada pada model sequential
yaitu long-range context dependencies. Dengan adanya multi-head attention pada
model transformers yang dapat menangkap hubungan antarkata dengan baik
meskipun posisi kata tersebut berjauhan sehingga masalah long-range context
dependencies dapat diselesaikan. Masalah yang akan diselesaikan pada penelitian
II
ini adalah permasalahan low resource availability pada data image captioning
berbahasa Indonesia dapat diatasi dengan melakukan text augmentation. Text
augmentation dapat menambahkan beberapa variasi caption dengan mengganti
beberapa kata dari suatu kalimat sehingga menambah beberapa kosakata baru yang
mungkin akan muncul. Kalimat yang dibentuk dari text augmentation diharapkan
memiliki makna yang sama dengan kalimat sebelum dilakukan text augmentation.
Teknik text augmentation yang digunakan pada penelitian ini ada dua yaitu dengan
Word2Vec dan BERT.
Dari penelitian ini diperoleh penggunaan model image captioning berbasis
transformers dapat meningkatkan kinerja baik dari segi ketepatan prediksi dan
keberagaman caption yang dihasilkan dibandingkan model berbasis attention yang
digunakan pada penelitian sebelumnya. Dibandingkan dengan model attention,
model transformers mendapatkan penambahan untuk skor CIDEr sebanyak 0.741
dan peningkatan skor BLEU-4 sebanyak 0.079. Pada metrik keberagaman juga
terjadi peningkatan dari kosakata meningkat 19% lebih banyak, dan pada metrik
Div-1 dan Div-2 mendapatkan peningkatan secara berturut-turut 0.09 dan 0.134.
Hal tersebut dikarenakan pada model transformers memiliki multi-head attention
yang bisa mempelajari hubungan antarkata. Dengan hal tersebut sehingga
menyebabkan kinerja ketepatan dan keberagaman lebih baik dibanding model
attention yang menggunakan model sequential yaitu GRU yang memiliki masalah
long-range context dependencies yang juga menyebabakan kata berulang
dikarenakan hilangnya informasi.
Dari hasil eksperimen pada penelitian ini diperloleh text augmentation menurunkan
kinerja dari segi ketepatan. Penurunan pada model attention sebesar 0.026 pada
metrik CIDEr, dan 0.002 pada metrik BLEU-4. Sementara itu, pada model
transformers mengalami penurunan nilai CIDEr sebesar 0.335 dan penurunan nilai
BLEU-4 sebesar 0.054. Penurunan tersebut menunjukan dengan melakukan text
augmentation belum bisa membuat model dapat memprediksi caption menjadi
lebih akurat. Namun penggunaan text augmentation dapat meningkatkan kinerja
model dari segi keberagaman caption. Terbukti pada model attention dapat
meningkatkan kosakata 39% lebih banyak dan meningkatkan skor Div-2 sebanyak
0.015. Model transformers text augmentation meningkatkan kosakata 35% lebih
banyak dan meningkatkan skor Div-2 sebanyak 0.008. Hal ini menunjukan bahwa
text augmentation dapat digunakan untuk task image captioning jika keberagaman
caption merupakan hal yang penting pada permasalahan tersebut.