Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Pembangkitan soal adalah salah satu hal di ranah AI yang sering diteliti untuk kebutuhan
akademik, yaitu untuk membangkitkan soal-soal teks berbahasa alami, akurat secara
semantik, dan kohesif secara sintaksis. Pembangkitan soal ini dapat digunakan untuk
membuat variasi soal yang dapat digunakan untuk mengurangi tingkat kecurangan yang
dilakukan oleh pelajar. Tugas akhir ini melakukan riset mengenai bagaimana cara untuk
membangkitkan soal fisika. Soal fisika dipilih karena penelitian-penelitian sebelumnya belum
ada yang berhubungan dengan soal fisika. Selain itu, pembangkitan soal fisika tidak hanya
meliputi pembangkitan angka pada soal namun juga naskah dari soal. Ada dua proses utama
yang dilakukan untuk membangkitkan soal fisika, yaitu membangkitkan variabel-variabel
bebas pada soal (berupa angka) serta melakukan parafrasa dari soal yang sudah dibangkitkan.
Proses pembangkitan soal diawali dengan membuat suatu struktur data untuk menyatakan
konten-konten dari suatu soal, meliputi naskahnya, variabel-variabel bebas pada soalnya,
jawabannya, serta penjelasannya. Variabel-variabel bebas pada soal dicari menggunakan
pencocokan pola berbasis regular expression untuk lalu diisi dengan nilai acak saat soal
dibangkitkan. Pengisian nilai acak dilakukan mengikuti rule yang didefinisikan untuk
variabel bebas tersebut. Setelah soal dibangkitkan, soal diparafrasa menggunakan beragam
LLM, yaitu Pegasus dan T5 untuk model LLM yang di-finetune dan ChatGPT-3.5 Turbo
serta Mistral 7B untuk model LLM yang di-prompt secara langsung. Kinerja parafrasa
masing-masing model dibandingkan melalui beberapa metrik evaluasi parafrasa otomatis n-
gram yaitu BLEU, METEOR, ROUGE, metode evaluasi otomatis menggunakan model
bahasa yaitu ParaScore, serta melalui human evaluation. Hasil penelitian pada tugas akhir ini
menunjukkan bahwa model LLM, yaitu ChatGPT-3.5 Turbo dan Mistral 7B mampu
melakukan proses parafrasa soal dengan sangat baik berdasarkan human evaluation. Hasil
penelitian juga menunjukkan bahwa metrik evaluasi otomatis berbasis n-gram, yaitu BLEU,
METEOR, dan ROGUE, kurang cukup untuk melakukan evaluasi hasil parafrasa yang cukup
kompleks, sedangkan metrik evaluasi otomatis berbasis model bahasa, yaitu ParaScore,
cukup representatif dengan hasil human evaluation.