digilib@itb.ac.id +62 812 2508 8800

13519152 Muhammad Iqbal Sigid.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Image captioning adalah sebuah task untuk memberi deskripsi bahasa alami terhadap sebuah gambar untuk menjelaskan konten yang terdapat pada gambar. Model yang dikembangkan untuk task image captioning batuan geologis pada penelitian sebelumnya menggunakan arsitektur CNN-LSTM. Pada penelitian terbarunya digunakan Vision Attention (VaT) dan Sentence Transformer (SeTrans). Dengan perkembangan teknologi Transformer, terdapat peluang untuk meningkatkan model ini. Selain itu, terdapat juga permasalahan data yang relatif sedikit dibandingkan dengan data image captioning lain seperti Flickr8k dan MSCOCO. Pada penelitian tugas akhir ini, digunakan Vision Transformer (ViT) dan Swin Transformer sebagai encoder serta Transformer sebagai decoder untuk meningkatkan kinerja model image captioning batuan geologis. Augmentasi data gambar dilakukan dengan random crop dan data teks dengan backtranslation untuk menambah jumlah dan variasi data. Eksperimen pertama dilakukan dengan mengubah model, dimulai dari CNN kemudian mengubahnya menjadi Transformer. Eksperimen kedua dilakukan dengan mengubah learning rate dan augmentasi data untuk meningkatkan kinerja model dari eksperimen pertama. Hasil eksperimen ini menunjukkan model Swin-Transformer menghasilkan kinerja terbaik dengan nilai BLEU 45.01, 28.52, 19.34, dan 9.57. Penurunan learning rate hanya sedikit meningkatkan kinerja model serta augmentasi data gambar tidak meningkatkan kinerja model. Pelatihan dengan augmentasi data teks menghasilkan nilai BLEU-1 yang lebih rendah, tetapi BLEU-4 yang lebih tinggi pada nilai 40.62 dan 16.79. Hasil dari penelitian ini menunjukkan ViT dan Swin Transformer dapat meningkatkan hasil caption oleh model dibandingkan CNN. Namun, LSTM masih lebih unggul untuk menghasilkan caption yang lebih panjang. Selain itu, augmentasi data teks berpeluang untuk meningkatkan kinerja model.