Coreference resolution adalah suatu permasalahan pada bidang pemrosesan teks
untuk menemukan semua penyebutan (mention) yang merujuk kepada entitas yang
sama di dunia nyata. Coreference resolution dapat digunakan untuk membantu
menyelesaikan permasalahan dalam pemrosesan bahasa alami yang lain yaitu entity
linking, machine translation, summarization, chatbots, dan question answering.
Penelitian coreference resolution (coref) untuk Bahasa Indonesia masih minim.
Penelitian coref pada Bahasa Indonesia relatif tidak dapat dibandingkan satu sama
lain karena data yang dipakai relatif berbeda.
Permasalahan yang terdapat pada coref Bahasa Indonesia yaitu permasalahan pada
dataset dan permasalahan pada algoritma. Permasalahan pada dataset yaitu: tidak
adanya dataset standar yang dapat dipakai sebagai benchmark. Permasalahan pada
algoritma yaitu belum adanya penelitian yang menggunakan metode terbaru dari
beberapa arsitektur deep learning yang meraih kinerja kompetitif sebagaimana
dalam dataset Bahasa Inggris. Permasalahan algoritma yang lain yaitu penelitian
terbaik sebelumnya masih menggunakan pendekatan pipelined system.
Tesis ini adalah bagian dari riset bersama yang dilakukan oleh ITB, Prosa.ai, dan
AI Singapore. Riset yang dilakukan mencakup pembuatan Coreference Resolution
in the Indonesian Language (COIN) dataset dengan standar yang disesuaikan
dengan standar OntoNotes dataset dan pemodelan dengan menggunakan arsitektur
c2f-coref dan wl-coref. Tesis ini memiliki lingkup untuk membangun kode program
dan melaksanakan eksperimen dengan menggunakan arsitektur word level
coreference resolution (wl-coref). Selain itu, terdapat eksperimen arsitektur
Higher-order Coreference Resolution with Coarse-to-fine Inference (c2f-coref)
dengan variasi BERT encoder yang dikerjakan oleh engineer dari AI Singapore.
Analisis dilakukan bersama untuk membandingkan dan menganalisis performa
model.
Arsitektur wl-coref dipilih sebagai solusi pada Tesis ini dikarenakan efisiensi dan
kinerja yang kompetitif. Langkah pada arsitektur wl-coref adalah pencarian
coreference links antar token kata, kemudian melakukan konstruksi span dari token
II
yang memiliki coreference links. Proses adaptasi yang dilakukan pada arsitektur
wl-coref mencakup perubahan pada pairwise feature (hand crafted feature) dengan
hanya menggunakan jarak antar span dikarenakan pairwise feature lainnya tidak
tersedia pada dataset COIN. Selain itu, arsitektur wl-coref membutuhkan data
dependency relation untuk digunakan sebagai data pada modul span construction.
Sedangkan pada dataset COIN informasi tersebut tidak tersedia, sehingga data
dependency relation tersebut dibangkitkan menggunakan library stanza.
Berdasarkan hasil eksperimen, arsitektur wl-coref (F1 score 76.24) lebih baik
dibandingkan dengan arsitektur c2f-coref (F1 score 76.02). Namun selisih kinerja
diantara keduannya tidak terlalu besar. Hal ini dapat disebabkan karena data
dependency relation yang digunakan pada wl-coref Bahasa Indonesia dibangkitkan
menggunakan stanza, sedangkan pada Bahasa Inggris data tersebut dianotasi
manual. Sehingga hal tersebut dapat menimbulkan kesalahan lebih pada arsitektur
wl-coref Bahasa Indonesia. Encoder terbaik untuk arsitektur wl-coref dan c2f-coref
pada Bahasa Indonesia adalah XLM-RoBERTa-large. Selain itu, IndoSpanBERT-
large memberikan kinerja yang kompetitif dibawah XLM-RoBERTa-large,
sehingga dapat menjadi pilihan encoder yang masih bagus dengan ukuran model
yang lebih ringan. Pengujian pada metrik LEA menujukkan bahwa terdapat
kecenderungan model yang bagus pada metrik CoNLL akan bagus pula pada metrik
LEA. Walaupun LEA dan metrik CoNLL memiliki pendekatan perhitungan yang
berbeda.
Berdasarkan pengamatan mention recall pada beberapa variasi tipe mention dan
panjang mention menunjukkan bahwa tipe mention yang memiliki banyak instances
cenderung memiliki mention recall yang lebih bagus dibandingkan dengan mention
recall pada tipe mention yang memiliki sedikit instances. Selain itu, semakin
panjang mention maka model cenderung mendapatkan mention recall yang lebih
sedikit. Eksperimen hyperparameter tuning pada Tesis ini membuktikan bahwa
hyperparameter default dari penelitian Dobrovolskii (2021) adalah hyperparameter
terbaik.