digilib@itb.ac.id +62 812 2508 8800

Pariwisata Indonesia memiliki banyak potensi karena berkaitan dengan alam dan budaya sangat beragam yang dapat dikembangkan menjadi destinasi pariwisata. Dengan penambahan deskripsi secara otomatis dapat digunakan dalam suatu aplikasi untuk menyarankan tempat yang ingin dikunjungi. Image captioning merupakan suatu task yang berkaitan dengan pembangkitan deskripsi gambar secara otomatis. Perkembangan image captioning ini berlanjut dengan dikembangkannya model berbasis attention. Penelitian Xu dkk. (2015) mengembangkan model CNN-LSTM dengan menambahkan attention didalamnya. Penelitian tentang image captioning pada domain pariwisata Indonesia sudah pernah dilakukan oleh Fudholi dkk. (2021). Penelitian tersebut juga menggunakan arsitektur CNN-LSTM dengan attention seperti penelitian Xu dkk. (2015). Teknik yang dikembangkan pada penelitian tersebut adalah mengganti algoritma untuk feature extraction yaitu VGG16 dengan algoritma feature extraction yang lebih baru yaitu EfficientNet. Penelitian sebelumnya dari Fudholi dkk. (2021) masih menggunakan model sequential untuk bagian language model. Hal tersebut dikarenakan model sequential memiliki permasalahan dalam long-range context dependencies yaitu ketika kalimat sudah panjang model sequence akan sulit menangkap jika ada hubungan pada kata awal dan kata akhir. Permasalahan lain pada model sequential yaitu ketika memproses data perlu menunggu hasil kata perkata. Masalah lain yang muncul pada image captioning dengan caption berbahasa Indonesia adalah low resource availability. Hal tersebut menyebabkan kurangnya keberagaman dalam pembangunan caption. Keberagaman caption yang dihasilkan model adalah suatu yang penting karena caption yang dihasilkan menjadi tidak membosankan dengan menggunakan kata-kata yang sama. Pada tesis ini telah dilakukan penelitian tentang model image captioning berbasis transformers untuk menyelesaikan permasalahan yang ada pada model sequential yaitu long-range context dependencies. Dengan adanya multi-head attention pada model transformers yang dapat menangkap hubungan antarkata dengan baik meskipun posisi kata tersebut berjauhan sehingga masalah long-range context dependencies dapat diselesaikan. Masalah yang akan diselesaikan pada penelitian II ini adalah permasalahan low resource availability pada data image captioning berbahasa Indonesia dapat diatasi dengan melakukan text augmentation. Text augmentation dapat menambahkan beberapa variasi caption dengan mengganti beberapa kata dari suatu kalimat sehingga menambah beberapa kosakata baru yang mungkin akan muncul. Kalimat yang dibentuk dari text augmentation diharapkan memiliki makna yang sama dengan kalimat sebelum dilakukan text augmentation. Teknik text augmentation yang digunakan pada penelitian ini ada dua yaitu dengan Word2Vec dan BERT. Dari penelitian ini diperoleh penggunaan model image captioning berbasis transformers dapat meningkatkan kinerja baik dari segi ketepatan prediksi dan keberagaman caption yang dihasilkan dibandingkan model berbasis attention yang digunakan pada penelitian sebelumnya. Dibandingkan dengan model attention, model transformers mendapatkan penambahan untuk skor CIDEr sebanyak 0.741 dan peningkatan skor BLEU-4 sebanyak 0.079. Pada metrik keberagaman juga terjadi peningkatan dari kosakata meningkat 19% lebih banyak, dan pada metrik Div-1 dan Div-2 mendapatkan peningkatan secara berturut-turut 0.09 dan 0.134. Hal tersebut dikarenakan pada model transformers memiliki multi-head attention yang bisa mempelajari hubungan antarkata. Dengan hal tersebut sehingga menyebabkan kinerja ketepatan dan keberagaman lebih baik dibanding model attention yang menggunakan model sequential yaitu GRU yang memiliki masalah long-range context dependencies yang juga menyebabakan kata berulang dikarenakan hilangnya informasi. Dari hasil eksperimen pada penelitian ini diperloleh text augmentation menurunkan kinerja dari segi ketepatan. Penurunan pada model attention sebesar 0.026 pada metrik CIDEr, dan 0.002 pada metrik BLEU-4. Sementara itu, pada model transformers mengalami penurunan nilai CIDEr sebesar 0.335 dan penurunan nilai BLEU-4 sebesar 0.054. Penurunan tersebut menunjukan dengan melakukan text augmentation belum bisa membuat model dapat memprediksi caption menjadi lebih akurat. Namun penggunaan text augmentation dapat meningkatkan kinerja model dari segi keberagaman caption. Terbukti pada model attention dapat meningkatkan kosakata 39% lebih banyak dan meningkatkan skor Div-2 sebanyak 0.015. Model transformers text augmentation meningkatkan kosakata 35% lebih banyak dan meningkatkan skor Div-2 sebanyak 0.008. Hal ini menunjukan bahwa text augmentation dapat digunakan untuk task image captioning jika keberagaman caption merupakan hal yang penting pada permasalahan tersebut.