Abstrak - ZAHIRA DINA AMALIA
Terbatas Irwan Sofiyan
» Gedung UPT Perpustakaan
Terbatas Irwan Sofiyan
» Gedung UPT Perpustakaan
Dokumen Environmental, Social, and Governance (ESG) berbentuk PDF umumnya panjang, semi-terstruktur, serta banyak memuat tabel dan nilai numerik. Karakteristik tersebut membuat question answering dokumen ESG tidak hanya bergantung pada model bahasa, tetapi juga pada representasi dokumen, retrieval, seleksi evidence, penyusunan konteks, routing, dan prompt. Penelitian ini mengevaluasi komponen pipeline question answering pada dokumen ESG berbasis PDF untuk menganalisis pengaruh tiap komponen terhadap kualitas konteks, lokalisasi bukti, grounding, dan jawaban akhir.
Konfigurasi pipeline yang diuji mencakup ekstraksi PDF, normalisasi dokumen, pembangunan flat chunks, recursive chunks, dan evidence units, retrieval menggunakan BM25, dense retrieval, dan hybrid retrieval, serta pembentukan jawaban berbasis retrieval-augmented generation. Evaluasi menggunakan 119 pertanyaan dari ESGBench dengan metrik retrieval, metrik jawaban, dan metrik diagnostik. Hasil evaluasi menunjukkan bahwa recursive chunks dengan hybrid retrieval menjadi konfigurasi retrieval awal paling seimbang, tetapi lokalisasi halaman bukti masih terbatas. Evidence units lebih tepat digunakan sebagai pelengkap untuk sitasi, grounding operasional, dan analisis diagnostik, bukan sebagai pengganti konteks utama. Pada evaluasi akhir, context-only RAG lebih stabil daripada prompt-routed RAG.
Perpustakaan Digital ITB