digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Dataset diperlukan pada sistem Question Answering (QA) untuk melatih serta menguji model yang digunakan. Sistem ini dapat diimplementasikan pada data ulasan produk. Ulasan terhadap suatu produk berpengaruh terhadap keputusan pembelian produk tersebut. Belum ada dataset QA mengenai ulasan produk berbahasa Indonesia, sehingga penelitian ini dilakukan untuk memenuhi keperuan dataset pada sistem QA untuk tugas tersebut. Data ulasan produk pada dataset ini diambil dari platform Sociolla dan Female Daily dengan pertanyaan dan jawaban yang dikumpulkan dengan crowdsourcing oleh 15 orang sehingga menghasilkan 3.000 data. Dataset yang dihasilkan diambil sebanyak sebanyak 2.400 sebagai data latih dan 600 lainnya sebagai data uji. Dataset ini kemudian dicoba digunakan pada beberapa model machine learning diantaranya adalah Regresi Logistik, Decision Tree, Support Vector Machine (SVM), Random Forest, dan Generative Pre-trained Transformer (GPT). Kemudian hasil prediksi dari model-model tersebut diuji dengan metrik evaluasi Exact Match (EM), skor F1, dan Bilingual Evaluation Understudy (BLEU) untuk melihat performanya. Setelah itu dataset dipersiapkan agar dapat digunakan dengan baik pada sistem QA dengan melakukan konstruksi dataset. Pada pengujian yang dilakukan, model GPT memberikan hasil terbaik dengan nilai EM, skor F1, dan BLEU sebesar 0,2667, 0,6694, dan 0,0014 pada data uji.