
Raihan Astrada Fathurrahman [13519113].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Berkembangnya skema pre-train & fine-tune yang berhasil memperoleh kinerja yang baik di
bidang computer vision dan natural language processing mendorong banyaknya penelitian
yang kemudian mengeksplorasi Vision-Language Model atau yang lebih dikenal sebagai
Model VL. Penelitian image captioning Bahasa Indonesia yang telah dilakukan sebelumnya
umumnya masih menggunakan data yang terbatas, baik dari segi kualitas maupun kuantitas.
Selain itu, penelitan yang telah dilakukan juga belum memanfaatkan model VL. Padahal,
model VL mampu mencapai state-of-the-art pada permasalahan image captioning karena
memiliki generalisasi yang baik dari pre-training pada data berskala besar.
Untuk mengatasi kekurangan ini, tugas akhir ini melakukan pembangunan 60,000 data image
captioning yang diperoleh melalui perbaikan kalimat dari data MSCOCO yang diterjemahkan
secara otomatis ke Bahasa Indonesia. Dataset tersebut kemudian digunakan untuk melatih
model-model VL yang mampu meraih state-of-the-art pada data bahasa Inggris, seperti BLIP,
GIT, dan OFA, untuk menangani image captioning dalam bahasa Indonesia. Model-model
tersebut dilatih melalui skema transfer learning pada image captioning dataset berbahasa
Indonesia dengan kualitas dan kuantitas dataset yang bervariasi, seperti menggunakan data
machine translated, human translated, dan kombinasi keduanya.
Hasil eksperimen menunjukkan bahwa model BLIP yang dikenai finetune dengan gabungan
data machine translated dan human translated memiliki kemampuan adaptasi bahasa terbaik
dalam menangani image captioning Bahasa Indonesia. Model tersebut berhasil mencapai nilai
BLEU 1,2,3,4 secara berturut-turut sebesar 57.9, 43.3, 31.5, 23.2 dan nilai CIDEr sebesar
143.5. Rata-rata nilai BLEU dan CIDEr tersebut meningkat sebesar 78% dan 52%
dibandingkan dengan baseline yang tidak menggunakan model VL. Selain itu, evaluasi manual
menunjukkan bahwa penggunaan data human translated bersamaan dengan data machine
translated mampu memberikan caption yang lebih akurat dan alami pada model VL yang
digunakan.