digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flipbook Dessy Rondang Monaomi

Pencarian data belanja negara merupakan bagian penting dalam proses perencanaan dan evaluasi anggaran. Namun, metode pencarian konvensional berbasis pencocokan literal kata kunci (exact match) sering gagal menemukan informasi relevan, terutama ketika terjadi perbedaan terminologi, baik antara query dan dokumen maupun antar dokumen, atau ketika topik pencarian tidak tercakup dalam penandaan tematik yang ada. Penelitian ini bertujuan untuk (1) membangun pipeline sistem pencarian berbasis keyword pada data belanja negara menggunakan pendekatan Generative Retrieval (GR) berbasis Large Language Model (LLM), dan (2) menganalisis hasil eksperimen penerapan GR berbasis LLM pada sistem tersebut. Metodologi penelitian mencakup pengumpulan dan konstruksi dataset belanja negara sesuai hierarki DIPA hingga level suboutput, textualization data tabular menjadi narasi, pembangkitan keyword dan pseudo-keyword, serta penerapan fine-tuning LLM dengan adaptasi konsep multiview identifiers. Model (decoder-only architecture) kemudian dievaluasi menggunakan metrik Recall@K (K = 5, 10, 50, 100) dan Hits@5 dengan membandingkan hasilnya terhadap baseline (encoder-decoder architecture). Hasil penelitian menunjukkan bahwa GR berbasis LLM (decoder-only architecture) mampu meningkatkan relevansi pencarian secara signifikan, dengan kenaikan Recall@5 sebesar 13,5%, Recall@10 sebesar 18,8%, dan Recall@100 sebesar 1,7% dibanding baseline encoder-decoder. Sistem dapat menemukan dokumen relevan meskipun kata kunci tidak muncul secara eksplisit, serta mampu menjangkau topik baru di luar kategori yang telah ditentukan. Proses pseudo-keyword generation dan keyword expansion terbukti berperan penting dalam memperluas cakupan pencarian dan mengatasi keterbatasan penandaan tematik.