Transformasi digital telah mendorong fenomena mediatisasi sumber keagamaan,
yang ditandai dengan semakin diandalkannya sistem tanya jawab berbasis
kecerdasan buatan sebagai sarana akses informasi interaktif. Namun, penggunaan
model bahasa dalam domain keagamaan sangat sensitif terhadap halusinasi
generatif yang berpotensi bias dan memberikan tafsir yang tampak logis tetapi tidak
didukung sumber yang valid (misleading interpretations). Penelitian ini berfokus
pada mitigasi risiko halusinasi dengan mengimplementasikan arsitektur Retrieval-
Augmented Generation (RAG) yang diperkuat pada tahapan query dan retrieval
dari arsitektur RAG. Optimalisasi dual query, mencakup teknik step-back
prompting untuk mengabstraksi pertanyaan kompleks menjadi prinsip dasar serta
hypothetical document embedding (HyDE) menghasilkan dokumen jawaban
hipotetis yang kemudian digunakan sebagai basis pencarian representasi vektor
yang lebih relevan. Selain itu, hybrid retrieval dan reranking dipilih untuk
menggabungkan pencarian semantik dan leksikal, memurnikan konteks (noise-
free), dan memastikan dokumen yang bersifat otoritatif. Selanjutnya, tahap
generation diatur melalui pendekatan restrictive prompting. Prompting ini
memaksa LLM bergantung secara eksklusif pada konteks yang disediakan dan
menyertakan referensi metadata spesifik sebagai dasar strategi kebaruan untuk
mekanisme siklus umpan balik yang memungkinkan validasi kegagalan retrieval
atau generation. Koreksi umpan balik yang didasarkan pada referensi metadata
otoritatif digunakan sebagai pembaruan dinamis (retraining) sistem, sehingga
meningkatkan akurasi dan fidelitas jawaban yang dihasilkan.
Efektivitas sistem dievaluasi menggunakan metrik BERTScore untuk mengukur
kesamaan semantik (semantic similarity) antara respons sistem dengan ground
truth. Pengujian dilakukan menggunakan model Llama-3.1 dan meta-Llama-4 yang
telah dilatih pada tugas tanya jawab. Hasil pengujian menunjukan peningkatan F1-
Score antara model sistem dengan atau tanpa teknik optimasi dari 0.6887 menjadi
0.7261. Setelah dilakukan pembersihan data dan perbaikan konfigurasi optimasi,
kinerja F1-Score meningkat mencapai 0.7521. Pengujian lanjutan dengan
pengaturan hybrid retrieval (semantik dan kata kunci) mampu meningkatkan
kinerja F1-Score hingga 0.8837. Nilai Precision dan Recall yang tinggi pada hasil
pengujian memvalidasi kemampuan sistem menyampaikan semua informasi
penting dari referensi sehingga prompting dalam pengaturan strict grounding
secara efektif memitigasi halusinasi. Evaluasi halusinasi diuji dengan parameter
faithfulness, factuality, dan semantic grounding dengan hasil penilaian
menunjukkan model sistem mampu mempertahankan integritas informasi yang
membuktikan bahwa rujukan referensi yang disajikan sepenuhnya akurat dan fokus
pembahasan tetap konsisten tanpa mengalami pergeseran makna.
Perpustakaan Digital ITB