Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Pada ranah Visual Question Answering (VQA), diperlukan cukup data yang
mengandung aspek reasoning untuk menjamin pengembangan sistem yang mampu
menghasilkan luaran rasional dan terpercaya. Namun, besarnya sumber daya yang
dibutuhkan untuk membuat data VQA reasoning mendorong eksplorasi metode
pembuatan data yang lebih efisien. Tugas Akhir ini bertujuan untuk mengeksplorasi
pemanfaatan Large Vision Language Model (LVLM) untuk membangun data
sintetis VQA reasoning yang berkualitas dengan lebih efisien.
Eksperimen dilakukan dengan mengombinasikan tiga varian model LLaVA pada
tiga teknik prompting yang berbeda. Pendekatan pertama memanfaatkan instruksi
naif tunggal, kedua memanfaatkan teknik ensembling pada kumpulan luaran dari
berbagai instruksi yang lebih kompleks, dan ketiga memanfaatkan instruksi naif
dilengkapi anotasi lokasi objek yang ada di dalam gambar. Data sintetis dinilai dari
segi kualitas dan kemiripan struktural terhadap data buatan manusia.
Proses pembuatan data sintetis dengan sistem yang dibangun lebih efisien dari segi
waktu hingga 19.8x dan hanya mengalami penurunan kualitas sebesar 4%
dibandingkan pembuatan data oleh manusia. Hasil penelitian menggarisbawahi
potensi pemanfaatan LVLM disertai prompting tepat mampu menghasilkan VQA
reasoning yang berkualitas.