Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Large Language Models (LLMs) telah menunjukkan kinerja baik dalam berbagai tugas Natural Language Processing (NLP), terutama dalam Bahasa Inggris dengan bantuan teknik seperti Direct Preference Optimization (DPO), yaitu metode fine-tuning berbasis data preferensi pengguna. Namun, kinerja serupa belum terjadi pada Bahasa Indonesia akibat kurangnya penelitian yang secara khusus mengembangkan LLMs dengan pendekatan DPO untuk bahasa ini.
Penelitian bertujuan untuk meningkatkan kinerja LLMs Bahasa Indonesia dengan menerapkan DPO pada model Llama-3.1-8B-Instruct dan gemma-2-9b-it. Data preferensi dikumpulkan melalui survei prompt untuk kategori safety, math, logic, coding, summarization, translation, creative writing, open question, brainstorming, dan analysis. Divalidasi dengan Krippendorff’s Alpha untuk memastikan konsistensi penilaian, lalu dikonversi ke format pairwise untuk fine-tuning. Evaluasi kesesuaian keluaran model dengan preferensi pengguna sebelum dan sesudah fine-tuning dilakukan dengan RewardBench.
Evaluasi pada dataset IndoPref menunjukkan peningkatan akurasi model Llama dari 51,59% menjadi 51,69%, dan Gemma dari 72,09% menjadi 72,41%. Pada evaluasi subset Bahasa Indonesia dari Multilingual RewardBench, akurasi Llam meningkat dari 65,67% ke 66,69%, dan Gemma dari 60,61% ke 60,75%. Walau peningkatannya kecil, hal ini menunjukkan potensi penerapan DPO sebagai pendekatan yang efektif dalam pengembangan LLMs untuk Bahasa Indonesia.
Perpustakaan Digital ITB