digilib@itb.ac.id +62 812 2508 8800

Raihan Astrada Fathurrahman [13519113].pdf
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Berkembangnya skema pre-train & fine-tune yang berhasil memperoleh kinerja yang baik di bidang computer vision dan natural language processing mendorong banyaknya penelitian yang kemudian mengeksplorasi Vision-Language Model atau yang lebih dikenal sebagai Model VL. Penelitian image captioning Bahasa Indonesia yang telah dilakukan sebelumnya umumnya masih menggunakan data yang terbatas, baik dari segi kualitas maupun kuantitas. Selain itu, penelitan yang telah dilakukan juga belum memanfaatkan model VL. Padahal, model VL mampu mencapai state-of-the-art pada permasalahan image captioning karena memiliki generalisasi yang baik dari pre-training pada data berskala besar. Untuk mengatasi kekurangan ini, tugas akhir ini melakukan pembangunan 60,000 data image captioning yang diperoleh melalui perbaikan kalimat dari data MSCOCO yang diterjemahkan secara otomatis ke Bahasa Indonesia. Dataset tersebut kemudian digunakan untuk melatih model-model VL yang mampu meraih state-of-the-art pada data bahasa Inggris, seperti BLIP, GIT, dan OFA, untuk menangani image captioning dalam bahasa Indonesia. Model-model tersebut dilatih melalui skema transfer learning pada image captioning dataset berbahasa Indonesia dengan kualitas dan kuantitas dataset yang bervariasi, seperti menggunakan data machine translated, human translated, dan kombinasi keduanya. Hasil eksperimen menunjukkan bahwa model BLIP yang dikenai finetune dengan gabungan data machine translated dan human translated memiliki kemampuan adaptasi bahasa terbaik dalam menangani image captioning Bahasa Indonesia. Model tersebut berhasil mencapai nilai BLEU 1,2,3,4 secara berturut-turut sebesar 57.9, 43.3, 31.5, 23.2 dan nilai CIDEr sebesar 143.5. Rata-rata nilai BLEU dan CIDEr tersebut meningkat sebesar 78% dan 52% dibandingkan dengan baseline yang tidak menggunakan model VL. Selain itu, evaluasi manual menunjukkan bahwa penggunaan data human translated bersamaan dengan data machine translated mampu memberikan caption yang lebih akurat dan alami pada model VL yang digunakan.