Perpustakaan Digital - Digilib ITB

PEMBANGUNAN DATA SINTETIS VISUAL QUESTION ANSWERING REASONING DENGAN LARGE VISION LANGUAGE MODEL

157 views

Penulis	:	Patrick Amadeus Irawan [13520109]
Kontributor / Dosen Pembimbing	:	Dr. Eng. Ayu Purwarianti, S.T, M.T. Samuel Cahyawijaya
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	pembangunan data sintetis, VQA reasoning, LVLM, LLaVA, prompt.
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	15 Sep 2024

Dokumen Asli
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Pada ranah Visual Question Answering (VQA), diperlukan cukup data yang mengandung aspek reasoning untuk menjamin pengembangan sistem yang mampu menghasilkan luaran rasional dan terpercaya. Namun, besarnya sumber daya yang dibutuhkan untuk membuat data VQA reasoning mendorong eksplorasi metode pembuatan data yang lebih efisien. Tugas Akhir ini bertujuan untuk mengeksplorasi pemanfaatan Large Vision Language Model (LVLM) untuk membangun data sintetis VQA reasoning yang berkualitas dengan lebih efisien. Eksperimen dilakukan dengan mengombinasikan tiga varian model LLaVA pada tiga teknik prompting yang berbeda. Pendekatan pertama memanfaatkan instruksi naif tunggal, kedua memanfaatkan teknik ensembling pada kumpulan luaran dari berbagai instruksi yang lebih kompleks, dan ketiga memanfaatkan instruksi naif dilengkapi anotasi lokasi objek yang ada di dalam gambar. Data sintetis dinilai dari segi kualitas dan kemiripan struktural terhadap data buatan manusia. Proses pembuatan data sintetis dengan sistem yang dibangun lebih efisien dari segi waktu hingga 19.8x dan hanya mengalami penurunan kualitas sebesar 4% dibandingkan pembuatan data oleh manusia. Hasil penelitian menggarisbawahi potensi pemanfaatan LVLM disertai prompting tepat mampu menghasilkan VQA reasoning yang berkualitas.

Perpustakaan Digital ITB

PEMBANGUNAN DATA SINTETIS VISUAL QUESTION ANSWERING REASONING DENGAN LARGE VISION LANGUAGE MODEL

Artikel Terkait