Cover
PUBLIC karya Abstrak
PUBLIC karya Abstract
PUBLIC karya Lembar Pengesahan
PUBLIC karya Disertasi
PUBLIC karya
Peringkasan terpandu mengekstraksi informasi penting dari dokumen dengan
mempertimbangkan pengetahuan pembaca terhadap dokumen sebelumnya.
Peringkasan terpandu pada penelitian ini dibangun untuk domain makalah ilmiah
menggunakan kategorisasi retorik. Peringkasan ini menghasilkan dua komponen
utama, yaitu ringkasan initial dan update. Ringkasan initial dibangun dari
kumpulan makalah Set A (telah dibaca) yang terkait dengan makalah Set B.
Ringkasan update dibangun dari makalah Set B (akan dibaca). Peringkasan ini
dibangun karena belum ada peringkasan makalah ilmiah yang mempertimbangkan
pengetahuan pembaca terhadap kumpulan makalah ilmiah sebelumnya sehingga
hasil ringkasan tidak membedakan informasi dari makalah yang telah dan akan
dibaca yang memiliki keterkaitan topik. Ada dua kontribusi pada penelitian ini yaitu
1) Identifikasi topik keterkaitan makalah ilmiah yang telah dibaca (Set A) dan
makalah yang akan dibaca (Set B) dengan kategorisasi kalimat sitasi. 2)
Peringkasan terpandu makalah ilmiah menggunakan koleksi building plan kategori
retorik yang disesuaikan dengan keterkaitan topik kalimat sitasi antar makalah.
Identifikasi topik keterkaitan makalah telah dibangun menggunakan kategorisasi
kalimat sitasi. Kategori tersebut adalah ‘Problem’ (kalimat sitasi berisi masalah
atau gap weak dari penelitian lain), ‘UseModel’ (kalimat sitasi berisi penggunaan
model/teknik/metode dari penelitian lain), ‘UseTool’ (kalimat sitasi berisi
penggunaan tool/algoritma/software dari penelitian lain), ‘UseData’ (kalimat sitasi
berisi penggunaan data dari penelitian lain), dan ‘Other’ (kalimat sitasi yang tidak
tergolong ke dalam kategori lainnya). Nilai f-measure tertinggi pada data pelatihan
diperoleh ketika menggunakan Support Vector Machine dan teknik SMOTE untuk
menangani imbalaced dataset. Dengan metode tersebut pada data pengujian, 905
kalimat atau 78,5% dari 1.153 kalimat sitasi berhasil diklasifikasikan dengan benar.
Hal ini mengindikasikan bahwa 78 makalah dari 100 makalah yang akan dibaca
(Set B) dapat diketahui keterkaitannya dengan makalah yang telah dibaca (Set A)
melalui kategori sitasi.
Kemudian, peringkasan terpandu makalah telah dibangun menggunakan koleksi
building plan kategori retorik sebagai struktur aspek. Kategori retorik yang
digunakan dalam ringkasan adalah ‘AIM_NOV’ (tujuan dan kebaruan),
‘OWN_CONC_RES_FAIL’ (konklusi baik hasil maupun kegagalan),
‘MTHD_USE’ (metode) dan ‘DATA’ (data). Seleksi kalimat untuk ringkasan
menggunakan Maximal Marginal Relevance lalu melalui proses surface repair.
ii
Evaluasi pertama menggunakan ROUGE dimana hasil ringkasan sistem
dibandingkan dengan hasil ringkasan manual. Setelah menggunakan surface repair,
hasil F-measure ringkasan initial (Set A) meningkat dari 0,419 menjadi 0,464.
Selain itu, hasil pengujian ROUGE untuk ringkasan update (Set B) menunjukkan
lebih dari 50% terdapat topik informasi dalam bentuk NN (kata benda) dan JJ (kata
sifat) yang overlap dengan ringkasan manual. Sementara itu, evaluasi kedua
menggunakan penilaian subjektif pembaca dengan kuisioner. Hasilnya
menunjukkan sebagian besar pembaca dapat memisahkan informasi makalah yang
telah dibaca (Set A) dan makalah yang akan dibaca (Set B). Namun sebagian
pembaca menilai keterkaitan topik antar makalah Set A yang terpilih dan makalah
Set B tidak jelas karena tidak berhasil menangkap keterkaitan topik pada ringkasan
update.