Abstract Meaning Representation (AMR) adalah salah satu representasi semantik
dari kalimat tunggal. Document Abstract Meaning Representation (DocAMR)
memperluas fungsi AMR sehingga dapat mempresentasikan banyak kalimat atau
satu kesatuan dokumen. DocAMR didapat dari graf hasil penggabungan AMR
kalimat individu dan anotasi coreference antar kalimat. Pembangkit DocAMR telah
dikembangkan dengan berbagai metode pembelajaran mesin. Namun belum ada
aplikasi dunia nyata DocAMR atau graf AMR level dokumen pada task pemrosesan
bahasa alami seperti pada kemiripan dokumen.
Kemiripan dokumen (atau jarak antar dokumen) merupakan salah satu task natural
language processing, terutama pada information retrieval. Task ini menghitung
seberapa mirip suatu dokumen dengan dokumen lain. Aplikasi kemiripan dokumen
antara lain eksplorasi dataset dan rekomendasi dokumen. Teknik representasi
dokumen dapat berdasarkan word-based (lexicon) atau semantic-based. Penelitian
kemiripan dokumen yang menggunakan representasi dokumen word-based seperti
bag of words, Latent Dirichlet Allocation (LDA), dan paragraph vectors telah
dikerjakan. Namun belum ada penelitian yang menjelaskan pengaruh representasi
semantik berbasis graf AMR level dokumen pada kemiripan dokumen.
Perancangan model kemiripan dokumen berbasis graf AMR level dokumen sebagai
representasi dokumen dilakukan pada penelitian ini. Data pengujian Document
similarity triplets dataset v1.0 subdataset hand-built Wikipedia triplet, diambil
dengan menerapkan praproses berupa pengunduhan teks, pemotongan teks,
pembersihan teks, dan segmentasi kalimat. Graf AMR per kalimat dibangkitkan
dengan model pretrained Transition-based Neural Parser. Penggabungan AMR
untuk mendapatkan AMR level dokumen dilakukan dengan 3 metode; sentence
conjunction, concept merging, dan DocAMR. Kemiripan antar dokumen dihitung
menggunakan skor Smatch hasil dari proses DocSmatch.
Pengujian model kemiripan dokumen menggunakan representasi graf DocAMR
memberikan hasil akurasi sebesar 65,6976%, dimana hasil tersebut lebih besar
dibandingkan baseline yang menggunakan penggabungan sentence conjunction
AMR per kalimat yaitu 65,1162%. Tetapi metode pembanding concept merging
ii
mengalahkan DocAMR dengan nilai 77,9069%. Kesalahan prediksi terjadi karena
potongan teks yang diambil dari artikel memang tidak memiliki konsep atau
informasi yang cukup untuk mewakili topik dan kedekatan dokumen. Perbedaan
akurasi prediksi yang lumayan signifikan pada setiap pengujian menandakan nilai
Smatch pada pasangan dokumen yang dibandingkan memiliki selisih yang kecil,
sehingga disarankan penelitian selanjutnya untuk menggunakan pendekatan
perhitungan kemiripan dokumen berbasis graf lain seperti Graph Edit Distance atau
Jaccard Similarity untuk graf.