Perpustakaan Digital - Digilib ITB

QUESTION ANSWERING DOMAIN RELIGI-SIRAH NABAWIYAH BAHASA INDONESIA MENGGUNAKAN GENERATIVE-LLM

512 views

Penulis	:	Muhammad Razif Rizqullah [23522050]
Kontributor / Dosen Pembimbing	:	Dr. Eng. Ayu Purwarianti, S.T, M.T.
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	QASiNa, reading comprehension, multiple choices, Masked-LM, Generative-LLM
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	16 Mar 2024

23522050 Muhammad Razif Rizqullah.pdf

PUBLIC Open In Flip Book Dessy Rondang Monaomi

Indonesia adalah negara dengan populasi penganut agama Islam terbesar di dunia. Terdapat dua sumber informasi utama dalam Islam yaitu Al-Qur'an dan Al-Hadits, selain itu terdapat literatur penting lain yaitu Sirah Nabawiyah. Sirah Nabawiyah adalah literatur sejarah perjalanan kenabian dalam agama Islam yang merujuk kepada kedua sumber utama. Pada penelitian Question Answering (QA) saat ini, sudah ada penelitian tentang Al-Qur'an dan Al-Hadits namun belum ada yang menggunakan Sirah Nabawiyah, terutama untuk Bahasa Indonesia. Literatur Sirah Nabawiyah digunakan untuk membangun dataset baru untuk QA. Pembangunan dataset baru secara manual membutuhkan biaya dan tenaga manusia yang banyak, oleh karena itu digunakan bantuan Generative-LLM pada sebagian prosesnya. Hasilnya adalah Question Answering Sirah Nabawiyah (QASiNa) dataset untuk reading comprehension (QASiNa-RC), multiple choices (QASiNa- MC), dan corpus Sirah Nabawiyah (SiNaCorpus). Pengujian QASiNa-RC dilakukan untuk task reading comprehension menggunakan mBERT, XLM- RoBERTa, dan IndoBERT. Pengujian QASiNa-MC dilakukan untuk task multiple choices QA menggunakan open-source Generative-LLM yaitu mGPT, XGLM, BLOOM dan BLOOMZ. Model GPT-3.5 dan GPT-4 juga digunakan untuk menguji kedua dataset. Hasil evaluasi QASiNa-RC menunjukkan XLM-RoBERTa sebagai model terbaik dengan nilai EM 58.40%, sedangkan model GPT-3.5 dan GPT-4 kurang baik karena melakukan penafsiran berlebihan. Evaluasi QASiNa-MC menunjukkan BLOOMZ 1.7B sebagai model terbaik dengan accuracy 27.76% dan meningkat menjadi 28.62% setelah dilakukan corpus-tuning. Model GPT-3.5 dan GPT-4 mendapatkan hasil lebih baik secara berurutan yaitu 56.60% dan 72.40%.

Perpustakaan Digital ITB

QUESTION ANSWERING DOMAIN RELIGI-SIRAH NABAWIYAH BAHASA INDONESIA MENGGUNAKAN GENERATIVE-LLM

Artikel Terkait