digilib@itb.ac.id +62 812 2508 8800

Question answering adalah salah satu riset dalam bidang pemrosesan bahasa alami yang bertujuan untuk mendapatkan jawaban yang benar dari pertanyaan dalam bahasa alami. Suatu sistem question answering dapat dimanfaatkan untuk membangun chatbot ataupun mesin pencarian. Sistem question answering yang dibahas selanjutnya adalah sistem yang menggunakan knowledge graph sebagai sumber data. Ide dari pembangunan sistem ini adalah mentranslasi pertanyaan menjadi kueri SPARQL. Proses umum dalam sistem question answering adalah analisis pertanyaan, pemetaan frasa, disambiguasi, dan pembentukan kueri. Solusi sistem yang dibangun terdiri dari empat modul, yaitu modul klasifikasi tipe jawaban serta modul ekstraksi informasi yang melakukan proses analisis pertanyaan, modul kemiripan teks yang melakukan pemetaan frasa sekaligus disambiguasi, dan modul pembentukan kueri yang membentuk kueri serta mengeksekusi kueri. Eksperimen dilakukan pada modul klasifikasi tipe jawaban dan modul ekstraksi informasi untuk menemukan model terbaik. Modul klasifikasi tipe jawaban melakukan eksperimen dengan tujuh model, yaitu SVM-tfidf, SVM-fastText, SVM-IndoBERT, LSTM-fastText, LSTM-IndoBERT, fine-tuning IndoBERT, dan fine-tuning IndoBERT auxiliary. Modul ekstraksi informasi melakukan eksperimen dengan lima model, yaitu SVM-fastText, SVM-IndoBERT, LSTM-fastText, LSTM-IndoBERT, dan fine-tuning IndoBERT. Model yang terbaik digunakan untuk membangun sistem question answering. Modul kemiripan teks yang dibangun memanfaatkan kemiripan leksikal yang dihitung dengan dua metrik jarak yaitu Jaccard dan Levenshtein. Modul pembentukan kueri dibangun dengan menggunakan template kueri. Berdasarkan hasil eksperimen, model fine-tuning IndoBERT mempunyai kinerja yang paling baik untuk klasifikasi tipe jawaban. Untuk ekstraksi informasi, model LSTM-IndoBERT dan fine-tuning IndoBERT mempunyai kinerja yang sama baik. Model tersebut mendapatkan akurasi 1.00 pada klasifikasi tipe jawaban dan F1-score 0.98 untuk ekstraksi informasi. Sistem question answering selanjutnya dibangun menggunakan model fine-tuning IndoBERT untuk modul klasifikasi tipe jawaban dan ekstraksi informasi karena kinerja model ini yang baik terhadap data validasi maupun data uji. Secara keseluruhan, sistem question answering mendapatkan nilai evaluasi rata-rata F1-score, precision, dan recall secara berurutan yaitu 0.8499703, 0.8823529 dan 0.8418301.