digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flipbook Dessy Rondang Monaomi

Peringkasan berbasis graf merupakan metode peringkasan yang menggunakan struktur graf untuk merepresentasikan dokumen sumber dan menentukan kalimat-kalimat penting dalam sebuah dokumen. Sebagian besar metode peringkasan ekstraktif berbasis graf menentukan bobot sisi dalam 2 tahap yaitu inisialisasi bobot sisi dengan kesamaan semantik antar simpul, lalu memodifikasi bobot sisi dengan memanfaatkan hasil dari model pembelajaran mesin. Sebagai alternatif pengembangan, penelitian Tesis ini mengusulkan 1 tahap estimasi bobot sisi berbasis machine learning yang lebih sederhana daripada 2 tahap. Model pembelajaran mesin dilatih untuk memprediksi kekuatan hubungan antar kalimat dari nilai ROUGE yang diberikan berdasarkan fitur-fitur semantik seperti skor similaritas dan semantic role labeling (SRL). Untuk pelatihan, dilakukan konstruksi korpus kalimat yang berlabel nilai ROUGE terhadap ringkasan referensi. Dengan memanfaatkan bobot sisi yang diestimasi oleh model, sistem peringkasan mampu membangun graf yang lebih representatif terhadap isi dokumen. Setelah graf dibangun, modified weighted graph based ranking algorithm (MWGRA) digunakan untuk menentukan kalimat-kalimat yang paling representatif sebagai ringkasan. Untuk mengembangkan metode ini membutuhkan fitur-fitur semantik yang dapat digunakan pada pembelajaran mesin. Fitur ini bisa didapatkan dari model SRL dan model embedding. Model SRL-nya sendiri sudah diimplementasikan dan dilatih dengan menggunakan model XLM-R sedangkan model embedding yang digunakan adalah IndoSBERT. Jenis model pembelajaran mesin yang digunakan adalah XGBoost. Dataset peringkasan yang digunakan adalah Liputan6 yang merupakan dataset peringkasan Indonesia terbesar saat ini. Hasil eksperimen dan pengujian menunjukkan bahwa bobot sisi hasil estimasi dari model pembelajaran mesin terhadap peringkasan berbasis graf memberikan kinerja yang lebih baik dibandingkan menggunakan model pembelajaran mesin untuk memodifikasi bobot sisi dari nilai kesamaan semantik SRL pada penelitian Gojali (2022). Model dengan data pelatihan berjumlah 10000 artikel dengan sampling dan tanpa fitur SRL memberikan nilai skor F1 ROUGE terbaik yaitu ROUGE-1 0.4054, ROUGE-2 0.2130 dan ROUGE-L 0.3723. Model peringkasan yang dibuat juga mampu memberikan kinerja yang sangat baik dengan data pelatihan berjumlah 10 artikel dan 3 fitur yang digunakan yaitu kemiripan kalimat, posisi kalimat dalam dokumen dan kemiripan kalimat dengan judul dengan nilai skor F1 ROUGE-1 0.3971, ROUGE-2 0.2049 dan ROUGE-L 0.3646.