Pencarian data belanja negara merupakan bagian penting dalam proses perencanaan dan
evaluasi anggaran. Namun, metode pencarian konvensional berbasis pencocokan literal
kata kunci (exact match) sering gagal menemukan informasi relevan, terutama ketika
terjadi perbedaan terminologi, baik antara query dan dokumen maupun antar dokumen,
atau ketika topik pencarian tidak tercakup dalam penandaan tematik yang ada. Penelitian
ini bertujuan untuk (1) membangun pipeline sistem pencarian berbasis keyword pada data
belanja negara menggunakan pendekatan Generative Retrieval (GR) berbasis Large
Language Model (LLM), dan (2) menganalisis hasil eksperimen penerapan GR berbasis
LLM pada sistem tersebut.
Metodologi penelitian mencakup pengumpulan dan konstruksi dataset belanja negara
sesuai hierarki DIPA hingga level suboutput, textualization data tabular menjadi narasi,
pembangkitan keyword dan pseudo-keyword, serta penerapan fine-tuning LLM dengan
adaptasi konsep multiview identifiers. Model (decoder-only architecture) kemudian
dievaluasi menggunakan metrik Recall@K (K = 5, 10, 50, 100) dan Hits@5 dengan
membandingkan hasilnya terhadap baseline (encoder-decoder architecture).
Hasil penelitian menunjukkan bahwa GR berbasis LLM (decoder-only architecture)
mampu meningkatkan relevansi pencarian secara signifikan, dengan kenaikan Recall@5
sebesar 13,5%, Recall@10 sebesar 18,8%, dan Recall@100 sebesar 1,7% dibanding
baseline encoder-decoder. Sistem dapat menemukan dokumen relevan meskipun kata
kunci tidak muncul secara eksplisit, serta mampu menjangkau topik baru di luar kategori
yang telah ditentukan. Proses pseudo-keyword generation dan keyword expansion terbukti
berperan penting dalam memperluas cakupan pencarian dan mengatasi keterbatasan
penandaan tematik.
Perpustakaan Digital ITB