Perpustakaan Digital - Digilib ITB

IMAGE CAPTIONING BAHASA INDONESIA DENGAN MENGGUNAKAN VISION-LANGUAGE MODEL

392 views

Penulis	:	Raihan Astrada Fathurrahman [13519113]
Kontributor / Dosen Pembimbing	:	Dr. Eng. Ayu Purwarianti, S.T, M.T.
Jenis Koleksi	:	Tugas Akhir
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	image captioning, human translated data, machine translated data, vision- language model.
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	18 Sep 2023

Raihan Astrada Fathurrahman [13519113].pdf
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Berkembangnya skema pre-train & fine-tune yang berhasil memperoleh kinerja yang baik di bidang computer vision dan natural language processing mendorong banyaknya penelitian yang kemudian mengeksplorasi Vision-Language Model atau yang lebih dikenal sebagai Model VL. Penelitian image captioning Bahasa Indonesia yang telah dilakukan sebelumnya umumnya masih menggunakan data yang terbatas, baik dari segi kualitas maupun kuantitas. Selain itu, penelitan yang telah dilakukan juga belum memanfaatkan model VL. Padahal, model VL mampu mencapai state-of-the-art pada permasalahan image captioning karena memiliki generalisasi yang baik dari pre-training pada data berskala besar. Untuk mengatasi kekurangan ini, tugas akhir ini melakukan pembangunan 60,000 data image captioning yang diperoleh melalui perbaikan kalimat dari data MSCOCO yang diterjemahkan secara otomatis ke Bahasa Indonesia. Dataset tersebut kemudian digunakan untuk melatih model-model VL yang mampu meraih state-of-the-art pada data bahasa Inggris, seperti BLIP, GIT, dan OFA, untuk menangani image captioning dalam bahasa Indonesia. Model-model tersebut dilatih melalui skema transfer learning pada image captioning dataset berbahasa Indonesia dengan kualitas dan kuantitas dataset yang bervariasi, seperti menggunakan data machine translated, human translated, dan kombinasi keduanya. Hasil eksperimen menunjukkan bahwa model BLIP yang dikenai finetune dengan gabungan data machine translated dan human translated memiliki kemampuan adaptasi bahasa terbaik dalam menangani image captioning Bahasa Indonesia. Model tersebut berhasil mencapai nilai BLEU 1,2,3,4 secara berturut-turut sebesar 57.9, 43.3, 31.5, 23.2 dan nilai CIDEr sebesar 143.5. Rata-rata nilai BLEU dan CIDEr tersebut meningkat sebesar 78% dan 52% dibandingkan dengan baseline yang tidak menggunakan model VL. Selain itu, evaluasi manual menunjukkan bahwa penggunaan data human translated bersamaan dengan data machine translated mampu memberikan caption yang lebih akurat dan alami pada model VL yang digunakan.

Perpustakaan Digital ITB

IMAGE CAPTIONING BAHASA INDONESIA DENGAN MENGGUNAKAN VISION-LANGUAGE MODEL

Artikel Terkait