digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Pada ranah Visual Question Answering (VQA), diperlukan cukup data yang mengandung aspek reasoning untuk menjamin pengembangan sistem yang mampu menghasilkan luaran rasional dan terpercaya. Namun, besarnya sumber daya yang dibutuhkan untuk membuat data VQA reasoning mendorong eksplorasi metode pembuatan data yang lebih efisien. Tugas Akhir ini bertujuan untuk mengeksplorasi pemanfaatan Large Vision Language Model (LVLM) untuk membangun data sintetis VQA reasoning yang berkualitas dengan lebih efisien. Eksperimen dilakukan dengan mengombinasikan tiga varian model LLaVA pada tiga teknik prompting yang berbeda. Pendekatan pertama memanfaatkan instruksi naif tunggal, kedua memanfaatkan teknik ensembling pada kumpulan luaran dari berbagai instruksi yang lebih kompleks, dan ketiga memanfaatkan instruksi naif dilengkapi anotasi lokasi objek yang ada di dalam gambar. Data sintetis dinilai dari segi kualitas dan kemiripan struktural terhadap data buatan manusia. Proses pembuatan data sintetis dengan sistem yang dibangun lebih efisien dari segi waktu hingga 19.8x dan hanya mengalami penurunan kualitas sebesar 4% dibandingkan pembuatan data oleh manusia. Hasil penelitian menggarisbawahi potensi pemanfaatan LVLM disertai prompting tepat mampu menghasilkan VQA reasoning yang berkualitas.