digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Penelitian ini bertujuan untuk mengatasi keterbatasan kualitas pembangkitan teks Bahasa Indonesia dengan mengadaptasi metode reinforcement learning with human feedback (RLHF). Tugas yang dilakukan pada penelitian ini adalah menggunakan model pralatih untuk mengubah sentimen kalimat masukan positif menjadi sentimen negatif dan sebaliknya serta penggunaan reward model. Dengan menggunakan metode RLHF yang dikenal efektif, penelitian ini bertujuan untuk meningkatkan kualitas pembangkitan teks dengan gaya berupa transfer sentimen. Proses RLHF pada penelitian ini mencakup proses fine-tuning, reward training yang menggunakan human feedback, dan PPO training. Hasil evaluasi pada penelitian menunjukkan model pralatih dapat melakukan transfer sentimen positif ke negatif dan sebaliknya setelah di-fine-tuning. Setelah melalui proses RLHF lebih lanjut, hasil teks yang dibangkitkan dari model tersebut lebih dipilih atau disukai oleh manusia dibandingkan model yang hanya melakukan fine-tuning.