digilib@itb.ac.id +62 812 2508 8800


COVER I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

BAB 1 I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

BAB 2 I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

BAB 3 I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

BAB 4 I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

BAB 5 I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

BAB 6 I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

PUSTAKA I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

LAMPIRAN I Putu Andika Bagas Jiwanta
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Diberikan sebuah video, moment retrieval atau pengembalian momen adalah tugas pengembalian rentang waktu sebuah query aktivitas berupa kalimat lengkap atau frase sederhana dalam video tersebut. Permasalahan ini seringkali diselesaikan dengan model DETR (Detection Transformer) dan hanya segelintir yang menggunakan LLM generatif. Penggunaan LLM untuk menyelesaikan masalah ini biasanya memodelkan masalah sebagai masalah sequence to sequence atau causal language modelling. Pemodelan ini berusaha memprediksi luaran timestamp sesuai dengan input video dan query yang diberikan, misalnya [[0,42],[60,84]]. Sementara itu, pada dunia segmentasi gambar, LLM mulai digunakan sebagai segmentator dan dilatih agar memberikan luaran yang dapat diubah menjadi segmentation mask. Namun, pada model moment retrieval dengan video LLM, tidak ada penggunaan LLM sebagai segmentator seperti ini. Maka dari itu, pada tugas akhir ini, dicoba pemodelan masalah ini sebagai masalah segmentasi dan digunakan arsitektur video LLM BLIP 3. Video LLM ini dilatih menggunakan region loss dan pixel loss bersama denganlosscausallanguagemodelling selamapelatihan. Ditunjukkan bahwa loss gabungan ini dapat dioptimasi menggunakan optimizer AdamW. Pada dataset QVHighlights, dicapai skoryangmampumelebihiskorbaselinepadabenchmark QVHighlights. Skor ini dicapai dengan durasi pelatihan dan jumlah frame input yang jauh lebih sedikit dari metode LLM lainnya, hanya 25 frame dan 11 epoch. Model moment retrieval dengan LLM lainnya, meskipun memiliki skor lebih besar, memerlukan pelatihan yang jauh lebih lama, misalnya dengan jumlah frame 60 dan jumlah epoch 50 pada model Mr. BLIP.