Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Kepatuhan terhadap regulasi Otoritas Jasa Keuangan (OJK) menjadi tantangan besar bagi industri jasa keuangan di Indonesia karena kompleksitas dan volume dokumen regulasi yang terus berkembang. Penelitian ini mengembangkan model question answering (QA) berbasis model bahasa besar (Large Language Model/LLM) open-source yang dioptimalkan menggunakan pendekatan Reinforcement Learning from AI Feedback (RLAIF) dengan metode Direct Preference Optimization (DPO). Proses dimulai dengan pembangunan dataset context–question–answer dari dokumen regulasi OJK yang diperoleh dari JDIH OJK. Model dilatih menggunakan pendekatan Supervised Fine-Tuning (SFT) pada beberapa skenario ukuran data, lalu dilanjutkan dengan pelatihan berbasis DPO untuk menyelaraskan output dengan preferensi jawaban berkualitas. Evaluasi dilakukan terhadap lima model LLM open-source pada tiga tahap: baseline, SFT, dan DPO, menggunakan metrik EM, ROUGE, BLEU, dan METEOR. Hasil eksperimen menunjukkan bahwa SFT secara konsisten meningkatkan performa model, sementara DPO pada model seperti SeaLLMs-v3-7B dan Sahabat-AI-8B memberikan peningkatan metrik lebih lanjut. Penelitian ini menunjukkan bahwa kombinasi SFT dan DPO dalam kerangka RLAIF dapat menghasilkan model QA regulasi yang akurat, efisien, dan selaras dengan kebutuhan pengguna. Model yang dikembangkan juga dapat diterapkan dalam pipeline retrieval-augmented generation (RAG) untuk aplikasi QA berbasis dokumen hukum secara praktis.
Perpustakaan Digital ITB