digilib@itb.ac.id +62 812 2508 8800

Cover
PUBLIC karya

Abstrak
PUBLIC karya

Abstract
PUBLIC karya

Lembar Pengesahan
PUBLIC karya

Disertasi
PUBLIC karya

Peringkasan terpandu mengekstraksi informasi penting dari dokumen dengan mempertimbangkan pengetahuan pembaca terhadap dokumen sebelumnya. Peringkasan terpandu pada penelitian ini dibangun untuk domain makalah ilmiah menggunakan kategorisasi retorik. Peringkasan ini menghasilkan dua komponen utama, yaitu ringkasan initial dan update. Ringkasan initial dibangun dari kumpulan makalah Set A (telah dibaca) yang terkait dengan makalah Set B. Ringkasan update dibangun dari makalah Set B (akan dibaca). Peringkasan ini dibangun karena belum ada peringkasan makalah ilmiah yang mempertimbangkan pengetahuan pembaca terhadap kumpulan makalah ilmiah sebelumnya sehingga hasil ringkasan tidak membedakan informasi dari makalah yang telah dan akan dibaca yang memiliki keterkaitan topik. Ada dua kontribusi pada penelitian ini yaitu 1) Identifikasi topik keterkaitan makalah ilmiah yang telah dibaca (Set A) dan makalah yang akan dibaca (Set B) dengan kategorisasi kalimat sitasi. 2) Peringkasan terpandu makalah ilmiah menggunakan koleksi building plan kategori retorik yang disesuaikan dengan keterkaitan topik kalimat sitasi antar makalah. Identifikasi topik keterkaitan makalah telah dibangun menggunakan kategorisasi kalimat sitasi. Kategori tersebut adalah ‘Problem’ (kalimat sitasi berisi masalah atau gap weak dari penelitian lain), ‘UseModel’ (kalimat sitasi berisi penggunaan model/teknik/metode dari penelitian lain), ‘UseTool’ (kalimat sitasi berisi penggunaan tool/algoritma/software dari penelitian lain), ‘UseData’ (kalimat sitasi berisi penggunaan data dari penelitian lain), dan ‘Other’ (kalimat sitasi yang tidak tergolong ke dalam kategori lainnya). Nilai f-measure tertinggi pada data pelatihan diperoleh ketika menggunakan Support Vector Machine dan teknik SMOTE untuk menangani imbalaced dataset. Dengan metode tersebut pada data pengujian, 905 kalimat atau 78,5% dari 1.153 kalimat sitasi berhasil diklasifikasikan dengan benar. Hal ini mengindikasikan bahwa 78 makalah dari 100 makalah yang akan dibaca (Set B) dapat diketahui keterkaitannya dengan makalah yang telah dibaca (Set A) melalui kategori sitasi. Kemudian, peringkasan terpandu makalah telah dibangun menggunakan koleksi building plan kategori retorik sebagai struktur aspek. Kategori retorik yang digunakan dalam ringkasan adalah ‘AIM_NOV’ (tujuan dan kebaruan), ‘OWN_CONC_RES_FAIL’ (konklusi baik hasil maupun kegagalan), ‘MTHD_USE’ (metode) dan ‘DATA’ (data). Seleksi kalimat untuk ringkasan menggunakan Maximal Marginal Relevance lalu melalui proses surface repair. ii Evaluasi pertama menggunakan ROUGE dimana hasil ringkasan sistem dibandingkan dengan hasil ringkasan manual. Setelah menggunakan surface repair, hasil F-measure ringkasan initial (Set A) meningkat dari 0,419 menjadi 0,464. Selain itu, hasil pengujian ROUGE untuk ringkasan update (Set B) menunjukkan lebih dari 50% terdapat topik informasi dalam bentuk NN (kata benda) dan JJ (kata sifat) yang overlap dengan ringkasan manual. Sementara itu, evaluasi kedua menggunakan penilaian subjektif pembaca dengan kuisioner. Hasilnya menunjukkan sebagian besar pembaca dapat memisahkan informasi makalah yang telah dibaca (Set A) dan makalah yang akan dibaca (Set B). Namun sebagian pembaca menilai keterkaitan topik antar makalah Set A yang terpilih dan makalah Set B tidak jelas karena tidak berhasil menangkap keterkaitan topik pada ringkasan update.