digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Pembangkitan soal adalah salah satu hal di ranah AI yang sering diteliti untuk kebutuhan akademik, yaitu untuk membangkitkan soal-soal teks berbahasa alami, akurat secara semantik, dan kohesif secara sintaksis. Pembangkitan soal ini dapat digunakan untuk membuat variasi soal yang dapat digunakan untuk mengurangi tingkat kecurangan yang dilakukan oleh pelajar. Tugas akhir ini melakukan riset mengenai bagaimana cara untuk membangkitkan soal fisika. Soal fisika dipilih karena penelitian-penelitian sebelumnya belum ada yang berhubungan dengan soal fisika. Selain itu, pembangkitan soal fisika tidak hanya meliputi pembangkitan angka pada soal namun juga naskah dari soal. Ada dua proses utama yang dilakukan untuk membangkitkan soal fisika, yaitu membangkitkan variabel-variabel bebas pada soal (berupa angka) serta melakukan parafrasa dari soal yang sudah dibangkitkan. Proses pembangkitan soal diawali dengan membuat suatu struktur data untuk menyatakan konten-konten dari suatu soal, meliputi naskahnya, variabel-variabel bebas pada soalnya, jawabannya, serta penjelasannya. Variabel-variabel bebas pada soal dicari menggunakan pencocokan pola berbasis regular expression untuk lalu diisi dengan nilai acak saat soal dibangkitkan. Pengisian nilai acak dilakukan mengikuti rule yang didefinisikan untuk variabel bebas tersebut. Setelah soal dibangkitkan, soal diparafrasa menggunakan beragam LLM, yaitu Pegasus dan T5 untuk model LLM yang di-finetune dan ChatGPT-3.5 Turbo serta Mistral 7B untuk model LLM yang di-prompt secara langsung. Kinerja parafrasa masing-masing model dibandingkan melalui beberapa metrik evaluasi parafrasa otomatis n- gram yaitu BLEU, METEOR, ROUGE, metode evaluasi otomatis menggunakan model bahasa yaitu ParaScore, serta melalui human evaluation. Hasil penelitian pada tugas akhir ini menunjukkan bahwa model LLM, yaitu ChatGPT-3.5 Turbo dan Mistral 7B mampu melakukan proses parafrasa soal dengan sangat baik berdasarkan human evaluation. Hasil penelitian juga menunjukkan bahwa metrik evaluasi otomatis berbasis n-gram, yaitu BLEU, METEOR, dan ROGUE, kurang cukup untuk melakukan evaluasi hasil parafrasa yang cukup kompleks, sedangkan metrik evaluasi otomatis berbasis model bahasa, yaitu ParaScore, cukup representatif dengan hasil human evaluation.