Indonesia adalah negara dengan populasi penganut agama Islam terbesar di dunia.
Terdapat dua sumber informasi utama dalam Islam yaitu Al-Qur'an dan Al-Hadits,
selain itu terdapat literatur penting lain yaitu Sirah Nabawiyah. Sirah Nabawiyah
adalah literatur sejarah perjalanan kenabian dalam agama Islam yang merujuk
kepada kedua sumber utama. Pada penelitian Question Answering (QA) saat ini,
sudah ada penelitian tentang Al-Qur'an dan Al-Hadits namun belum ada yang
menggunakan Sirah Nabawiyah, terutama untuk Bahasa Indonesia.
Literatur Sirah Nabawiyah digunakan untuk membangun dataset baru untuk QA.
Pembangunan dataset baru secara manual membutuhkan biaya dan tenaga manusia
yang banyak, oleh karena itu digunakan bantuan Generative-LLM pada sebagian
prosesnya. Hasilnya adalah Question Answering Sirah Nabawiyah (QASiNa)
dataset untuk reading comprehension (QASiNa-RC), multiple choices (QASiNa-
MC), dan corpus Sirah Nabawiyah (SiNaCorpus). Pengujian QASiNa-RC
dilakukan untuk task reading comprehension menggunakan mBERT, XLM-
RoBERTa, dan IndoBERT. Pengujian QASiNa-MC dilakukan untuk task multiple
choices QA menggunakan open-source Generative-LLM yaitu mGPT, XGLM,
BLOOM dan BLOOMZ. Model GPT-3.5 dan GPT-4 juga digunakan untuk
menguji kedua dataset.
Hasil evaluasi QASiNa-RC menunjukkan XLM-RoBERTa sebagai model terbaik
dengan nilai EM 58.40%, sedangkan model GPT-3.5 dan GPT-4 kurang baik
karena melakukan penafsiran berlebihan. Evaluasi QASiNa-MC menunjukkan
BLOOMZ 1.7B sebagai model terbaik dengan accuracy 27.76% dan meningkat
menjadi 28.62% setelah dilakukan corpus-tuning. Model GPT-3.5 dan GPT-4
mendapatkan hasil lebih baik secara berurutan yaitu 56.60% dan 72.40%.