digilib@itb.ac.id +62 812 2508 8800

23522050 Muhammad Razif Rizqullah.pdf
PUBLIC Dessy Rondang Monaomi

Indonesia adalah negara dengan populasi penganut agama Islam terbesar di dunia. Terdapat dua sumber informasi utama dalam Islam yaitu Al-Qur'an dan Al-Hadits, selain itu terdapat literatur penting lain yaitu Sirah Nabawiyah. Sirah Nabawiyah adalah literatur sejarah perjalanan kenabian dalam agama Islam yang merujuk kepada kedua sumber utama. Pada penelitian Question Answering (QA) saat ini, sudah ada penelitian tentang Al-Qur'an dan Al-Hadits namun belum ada yang menggunakan Sirah Nabawiyah, terutama untuk Bahasa Indonesia. Literatur Sirah Nabawiyah digunakan untuk membangun dataset baru untuk QA. Pembangunan dataset baru secara manual membutuhkan biaya dan tenaga manusia yang banyak, oleh karena itu digunakan bantuan Generative-LLM pada sebagian prosesnya. Hasilnya adalah Question Answering Sirah Nabawiyah (QASiNa) dataset untuk reading comprehension (QASiNa-RC), multiple choices (QASiNa- MC), dan corpus Sirah Nabawiyah (SiNaCorpus). Pengujian QASiNa-RC dilakukan untuk task reading comprehension menggunakan mBERT, XLM- RoBERTa, dan IndoBERT. Pengujian QASiNa-MC dilakukan untuk task multiple choices QA menggunakan open-source Generative-LLM yaitu mGPT, XGLM, BLOOM dan BLOOMZ. Model GPT-3.5 dan GPT-4 juga digunakan untuk menguji kedua dataset. Hasil evaluasi QASiNa-RC menunjukkan XLM-RoBERTa sebagai model terbaik dengan nilai EM 58.40%, sedangkan model GPT-3.5 dan GPT-4 kurang baik karena melakukan penafsiran berlebihan. Evaluasi QASiNa-MC menunjukkan BLOOMZ 1.7B sebagai model terbaik dengan accuracy 27.76% dan meningkat menjadi 28.62% setelah dilakukan corpus-tuning. Model GPT-3.5 dan GPT-4 mendapatkan hasil lebih baik secara berurutan yaitu 56.60% dan 72.40%.