digilib@itb.ac.id +62 812 2508 8800

Pada masa sekarang ini, arus kebutuhan dan persediaan informasi yang tersedia secara umum sangatlah besar volumenya. Ditambah lagi dengan banyaknya situs berita daring yang turut menyediakan informasi terbaharui yang seringkali membahas kejadian dan topik yang sama. Hal ini menyebabkan banyaknya repetisi informasi yang tersedia, sehingga waktu yang diperlukan untuk membaca segala informasi terkait sebuah topik akan meningkat. Dengan adanya sistem peringkasan sebagai salah satu alternatif mengurangi waktu pemrosesan informasi ini, kegiatan pemrosesan informasi dari dokumen berita dapat dilakukan dengan lebih efisien. Tesis ini membahas sistem peringkasan otomatis dengan dependensi minimal terhadap sumber daya NLP, yaitu hanya menggunakan POS-Tagger, model semantik distribusi dari pembelajaran unsupervised dan daftar stopword. Ada 7 tahapan utama sistem untuk membentuk ringkasan, yaitu tokenisasi, pemberian POS-Tag, pemberian bobot terhadap kalimat menggunakan TF-IDF dan model semantk terdistribusi, clustering, penggabungan kalimat menggunakan sentence fusion dengan membentuk graf kata, pembangkitan kalimat dari graf kata, akhirnya dilakukan pemilihan kalimat menggunakan algoritma integer linear programming. Pengujian otomatis dilakukan menggunakan ROUGE 2.0 berfokus pada konfigurasi ROUGE-1 dan ROUGE-2. Dengan menggunakan beberapa dataset untuk pemilihan konfigurasi optimal, dapat diambil konfigurasi yang kemudian adan diuji terhadap 5 dataset lain. Didapatkan nilai ROUGE sistem yang terbaik yaitu menggunakan model W2V Garmastewira untuk pembobotan yang digunakan proses clustering. Pada akhirnya, digunakan model W2V dengan parameter similarity 0.05 untuk clustering awal, dengan menghasilkan nilai ROUGE-2 0.231 terhadap pembentukan dokumen 100 kata, dan 0.319 pada dokumen 200 kata.