digilib@itb.ac.id +62 812 2508 8800

Sistem peringkasan otomatis berita berbahasa Indonesia perlu terus dikembangkan, seiring semakin banyaknya berita di internet. Sistem peringkasan ekstraktif kumpulan berita berbahasa Indonesia telah dibangun sebelumnya dengan semantic role labeling (SRL) untuk menghasilkan predicate argument structure (PAS) dan pohon keputusan sebagai model kepentingan kalimat. Namun, ditemukan ketidakkonsistenan label kalimat pada data yang digunakan untuk pemodelan pohon keputusan. Sebagai alternatif pohon keputusan, model kepentingan kalimat regresi dapat digunakan dengan label kalimat berupa nilai ROUGE terhadap ringkasan referensi. Data tersebut dapat dibangun secara otomatis. Selain itu, sistem peringkasan berbahasa Indonesia berbasis sentence fusion telah dibangun untuk menghasilkan ringkasan semi-abstraktif. Pada Tugas Akhir ini, dilihat pengaruh fitur-fitur dari dua kelompok aturan keterhubungan PAS dan regresi linier dengan data dianotasi otomatis terhadap kinerja sistem peringkasan berbasis SRL dan graf semantik. Selain itu, dilihat pengaruh sentence fusion terhadap kualitas ringkasan. Sistem peringkasan Tugas Akhir dibangun dengan model kepentingan kalimat pohon keputusan atau regresi linier dan sentence fusion. Pemodelan ulang pohon keputusan menggunakan tambahan data latih yang dianotasi manual. Regresi linier dilatih dengan data latih yang dianotasi otomatis berdasarkan nilai ROUGE. Kedua model menggunakan 13 fitur dari kelompok aturan keterhubungan PAS dengan dokumen dan kumpulan dokumen. Sentence fusion membentuk kalimat baru dari kelompok kalimat mirip berdasarkan hasil clustering. Eksperimen bertujuan mengetahui pengaruh penambahan data latih pohon keputusan, menentukan model kepentingan kalimat terbaik, menentukan konfigurasi linkage terbaik fitur kemiripan PAS dengan dokumen dan kumpulan dokumen, menentukan himpunan fitur optimal, mengetahui pengaruh fitur judul, dan menentukan parameter clustering. Model terbaik menghasilkan rata-rata recall ROUGE-2 masing-masing 0,2471 dan 0,3026 untuk ringkasan 100 dan 200 kata