Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Penelitian ini bertujuan untuk mengatasi keterbatasan kualitas pembangkitan teks
Bahasa Indonesia dengan mengadaptasi metode reinforcement learning with
human feedback (RLHF). Tugas yang dilakukan pada penelitian ini adalah
menggunakan model pralatih untuk mengubah sentimen kalimat masukan positif
menjadi sentimen negatif dan sebaliknya serta penggunaan reward model.
Dengan menggunakan metode RLHF yang dikenal efektif, penelitian ini bertujuan
untuk meningkatkan kualitas pembangkitan teks dengan gaya berupa transfer
sentimen. Proses RLHF pada penelitian ini mencakup proses fine-tuning, reward
training yang menggunakan human feedback, dan PPO training.
Hasil evaluasi pada penelitian menunjukkan model pralatih dapat melakukan
transfer sentimen positif ke negatif dan sebaliknya setelah di-fine-tuning. Setelah
melalui proses RLHF lebih lanjut, hasil teks yang dibangkitkan dari model
tersebut lebih dipilih atau disukai oleh manusia dibandingkan model yang hanya
melakukan fine-tuning.