digilib@itb.ac.id +62 812 2508 8800

23520023 Adi Widianto.pdf
PUBLIC Dessy Rondang Monaomi

Abstract Meaning Representation (AMR) adalah salah satu representasi semantik dari kalimat tunggal. Document Abstract Meaning Representation (DocAMR) memperluas fungsi AMR sehingga dapat mempresentasikan banyak kalimat atau satu kesatuan dokumen. DocAMR didapat dari graf hasil penggabungan AMR kalimat individu dan anotasi coreference antar kalimat. Pembangkit DocAMR telah dikembangkan dengan berbagai metode pembelajaran mesin. Namun belum ada aplikasi dunia nyata DocAMR atau graf AMR level dokumen pada task pemrosesan bahasa alami seperti pada kemiripan dokumen. Kemiripan dokumen (atau jarak antar dokumen) merupakan salah satu task natural language processing, terutama pada information retrieval. Task ini menghitung seberapa mirip suatu dokumen dengan dokumen lain. Aplikasi kemiripan dokumen antara lain eksplorasi dataset dan rekomendasi dokumen. Teknik representasi dokumen dapat berdasarkan word-based (lexicon) atau semantic-based. Penelitian kemiripan dokumen yang menggunakan representasi dokumen word-based seperti bag of words, Latent Dirichlet Allocation (LDA), dan paragraph vectors telah dikerjakan. Namun belum ada penelitian yang menjelaskan pengaruh representasi semantik berbasis graf AMR level dokumen pada kemiripan dokumen. Perancangan model kemiripan dokumen berbasis graf AMR level dokumen sebagai representasi dokumen dilakukan pada penelitian ini. Data pengujian Document similarity triplets dataset v1.0 subdataset hand-built Wikipedia triplet, diambil dengan menerapkan praproses berupa pengunduhan teks, pemotongan teks, pembersihan teks, dan segmentasi kalimat. Graf AMR per kalimat dibangkitkan dengan model pretrained Transition-based Neural Parser. Penggabungan AMR untuk mendapatkan AMR level dokumen dilakukan dengan 3 metode; sentence conjunction, concept merging, dan DocAMR. Kemiripan antar dokumen dihitung menggunakan skor Smatch hasil dari proses DocSmatch. Pengujian model kemiripan dokumen menggunakan representasi graf DocAMR memberikan hasil akurasi sebesar 65,6976%, dimana hasil tersebut lebih besar dibandingkan baseline yang menggunakan penggabungan sentence conjunction AMR per kalimat yaitu 65,1162%. Tetapi metode pembanding concept merging ii mengalahkan DocAMR dengan nilai 77,9069%. Kesalahan prediksi terjadi karena potongan teks yang diambil dari artikel memang tidak memiliki konsep atau informasi yang cukup untuk mewakili topik dan kedekatan dokumen. Perbedaan akurasi prediksi yang lumayan signifikan pada setiap pengujian menandakan nilai Smatch pada pasangan dokumen yang dibandingkan memiliki selisih yang kecil, sehingga disarankan penelitian selanjutnya untuk menggunakan pendekatan perhitungan kemiripan dokumen berbasis graf lain seperti Graph Edit Distance atau Jaccard Similarity untuk graf.