13519152 Muhammad Iqbal Sigid.pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Image captioning adalah sebuah task untuk memberi deskripsi bahasa alami
terhadap sebuah gambar untuk menjelaskan konten yang terdapat pada gambar.
Model yang dikembangkan untuk task image captioning batuan geologis pada
penelitian sebelumnya menggunakan arsitektur CNN-LSTM. Pada penelitian
terbarunya digunakan Vision Attention (VaT) dan Sentence Transformer (SeTrans).
Dengan perkembangan teknologi Transformer, terdapat peluang untuk
meningkatkan model ini. Selain itu, terdapat juga permasalahan data yang relatif
sedikit dibandingkan dengan data image captioning lain seperti Flickr8k dan
MSCOCO.
Pada penelitian tugas akhir ini, digunakan Vision Transformer (ViT) dan Swin
Transformer sebagai encoder serta Transformer sebagai decoder untuk
meningkatkan kinerja model image captioning batuan geologis. Augmentasi data
gambar dilakukan dengan random crop dan data teks dengan backtranslation untuk
menambah jumlah dan variasi data. Eksperimen pertama dilakukan dengan
mengubah model, dimulai dari CNN kemudian mengubahnya menjadi
Transformer. Eksperimen kedua dilakukan dengan mengubah learning rate dan
augmentasi data untuk meningkatkan kinerja model dari eksperimen pertama.
Hasil eksperimen ini menunjukkan model Swin-Transformer menghasilkan kinerja
terbaik dengan nilai BLEU 45.01, 28.52, 19.34, dan 9.57. Penurunan learning rate
hanya sedikit meningkatkan kinerja model serta augmentasi data gambar tidak
meningkatkan kinerja model. Pelatihan dengan augmentasi data teks menghasilkan
nilai BLEU-1 yang lebih rendah, tetapi BLEU-4 yang lebih tinggi pada nilai 40.62
dan 16.79. Hasil dari penelitian ini menunjukkan ViT dan Swin Transformer dapat
meningkatkan hasil caption oleh model dibandingkan CNN. Namun, LSTM masih
lebih unggul untuk menghasilkan caption yang lebih panjang. Selain itu,
augmentasi data teks berpeluang untuk meningkatkan kinerja model.