Perpustakaan Digital ITB

PERINGKASAN OTOMATIS BERITA BERBAHASA INDONESIA DENGAN ABSTRACT MEANING REPRESENTATION

147 views

Save At List

Penulis	:	Amany Akhyar [23519001]
Kontributor / Dosen Pembimbing	:	Dr. Masayu Leylia Khodra, S.T., M.T.
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Peringkasan, IndoSum, Abstract Meaning Representation
Sumber	:
Staf Input/Edit	:	karya Irwan Sofiyan
File	:	11 file
Tanggal Input	:	18 Jun 2021

PUBLIC Open In Flipbook karya

Abstrak dan Abstract

PUBLIC Open In Flipbook karya

Lembar Pengesahan
Terbatas karya
» ITB

PUBLIC Open In Flipbook karya

PUBLIC Open In Flipbook Irwan Sofiyan

PUBLIC Open In Flipbook Irwan Sofiyan

PUBLIC Open In Flipbook Irwan Sofiyan

PUBLIC Open In Flipbook Irwan Sofiyan

PUBLIC Open In Flipbook Irwan Sofiyan

PUBLIC Open In Flipbook Irwan Sofiyan

Daftar Pustaka & Lampiran

PUBLIC Open In Flipbook Irwan Sofiyan

Seiring dengan banyaknya sumber berita online, ringkasan menjadi diperlukan untuk memperoleh informasi yang penting dalam waktu baca yang lebih singkat. Peringkasan dengan Abstract Meaning Representation (AMR) telah dilakukan pertama kalinya untuk bahasa Indonesia dengan menggunakan pembangkit graf AMR berbasis aturan. Graf AMR digunakan untuk merepresentasikan kalimat. Batasan yang dimiliki oleh pembangkit graf AMR tersebut adalah terdapat frasa pada simpul. Hal ini menimbulkan permasalahan pada proses penggabungan konsep yang sama ketika meringkas. Pada penelitian ini, pembangkit graf AMR berbasis pembelajaran mesin digunakan untuk menggantikan pembangkit graf AMR berbasis aturan. Pembangkit graf AMR ini telah dapat membangkitkan simpul dengan kata saja. Graf AMR yang dibangkitkan kemudian melalui penggabungan konsep berdasarkan kata yang sama dan sinonim untuk membentuk graf sumber. Graf sumber kemudian diseleksi menjadi subgraf (graf ringkasan) untuk dibangkitkan menjadi kumpulan kata oleh Simple Natural Language Generation (Simple NLG). Dari kumpulan kata, akan diekstraksi tiga kalimat artikel berita berdasarkan skor kalimat tertinggi. Data yang digunakan untuk sistem peringkasan ini adalah dataset IndoSum. Dari hasil penelitian, terbukti bahwa pembangkit graf AMR berbasis pembelajaran mesin dapat melalui proses penggabungan konsep dengan baik. Sebagai dasar perbandingan (baseline), dilakukan ekstraksi sebanyak tiga kalimat berita yang paling mirip dengan ringkasan referensi berdasarkan cosine similarity. Representasi yang digunakan adalah Word2Vec yang telah dilatih ulang. Sistem peringkasan dengan AMR masih belum melampaui kinerja baseline. Dari analisis yang dilakukan, terlihat bahwa sistem cenderung memilih simpul yang kata aslinya terdapat pada kalimat awal.