digilib@itb.ac.id +62 812 2508 8800

Coreference resolution adalah suatu permasalahan pada bidang pemrosesan teks untuk menemukan semua penyebutan (mention) yang merujuk kepada entitas yang sama di dunia nyata. Coreference resolution dapat digunakan untuk membantu menyelesaikan permasalahan dalam pemrosesan bahasa alami yang lain yaitu entity linking, machine translation, summarization, chatbots, dan question answering. Penelitian coreference resolution (coref) untuk Bahasa Indonesia masih minim. Penelitian coref pada Bahasa Indonesia relatif tidak dapat dibandingkan satu sama lain karena data yang dipakai relatif berbeda. Permasalahan yang terdapat pada coref Bahasa Indonesia yaitu permasalahan pada dataset dan permasalahan pada algoritma. Permasalahan pada dataset yaitu: tidak adanya dataset standar yang dapat dipakai sebagai benchmark. Permasalahan pada algoritma yaitu belum adanya penelitian yang menggunakan metode terbaru dari beberapa arsitektur deep learning yang meraih kinerja kompetitif sebagaimana dalam dataset Bahasa Inggris. Permasalahan algoritma yang lain yaitu penelitian terbaik sebelumnya masih menggunakan pendekatan pipelined system. Tesis ini adalah bagian dari riset bersama yang dilakukan oleh ITB, Prosa.ai, dan AI Singapore. Riset yang dilakukan mencakup pembuatan Coreference Resolution in the Indonesian Language (COIN) dataset dengan standar yang disesuaikan dengan standar OntoNotes dataset dan pemodelan dengan menggunakan arsitektur c2f-coref dan wl-coref. Tesis ini memiliki lingkup untuk membangun kode program dan melaksanakan eksperimen dengan menggunakan arsitektur word level coreference resolution (wl-coref). Selain itu, terdapat eksperimen arsitektur Higher-order Coreference Resolution with Coarse-to-fine Inference (c2f-coref) dengan variasi BERT encoder yang dikerjakan oleh engineer dari AI Singapore. Analisis dilakukan bersama untuk membandingkan dan menganalisis performa model. Arsitektur wl-coref dipilih sebagai solusi pada Tesis ini dikarenakan efisiensi dan kinerja yang kompetitif. Langkah pada arsitektur wl-coref adalah pencarian coreference links antar token kata, kemudian melakukan konstruksi span dari token II yang memiliki coreference links. Proses adaptasi yang dilakukan pada arsitektur wl-coref mencakup perubahan pada pairwise feature (hand crafted feature) dengan hanya menggunakan jarak antar span dikarenakan pairwise feature lainnya tidak tersedia pada dataset COIN. Selain itu, arsitektur wl-coref membutuhkan data dependency relation untuk digunakan sebagai data pada modul span construction. Sedangkan pada dataset COIN informasi tersebut tidak tersedia, sehingga data dependency relation tersebut dibangkitkan menggunakan library stanza. Berdasarkan hasil eksperimen, arsitektur wl-coref (F1 score 76.24) lebih baik dibandingkan dengan arsitektur c2f-coref (F1 score 76.02). Namun selisih kinerja diantara keduannya tidak terlalu besar. Hal ini dapat disebabkan karena data dependency relation yang digunakan pada wl-coref Bahasa Indonesia dibangkitkan menggunakan stanza, sedangkan pada Bahasa Inggris data tersebut dianotasi manual. Sehingga hal tersebut dapat menimbulkan kesalahan lebih pada arsitektur wl-coref Bahasa Indonesia. Encoder terbaik untuk arsitektur wl-coref dan c2f-coref pada Bahasa Indonesia adalah XLM-RoBERTa-large. Selain itu, IndoSpanBERT- large memberikan kinerja yang kompetitif dibawah XLM-RoBERTa-large, sehingga dapat menjadi pilihan encoder yang masih bagus dengan ukuran model yang lebih ringan. Pengujian pada metrik LEA menujukkan bahwa terdapat kecenderungan model yang bagus pada metrik CoNLL akan bagus pula pada metrik LEA. Walaupun LEA dan metrik CoNLL memiliki pendekatan perhitungan yang berbeda. Berdasarkan pengamatan mention recall pada beberapa variasi tipe mention dan panjang mention menunjukkan bahwa tipe mention yang memiliki banyak instances cenderung memiliki mention recall yang lebih bagus dibandingkan dengan mention recall pada tipe mention yang memiliki sedikit instances. Selain itu, semakin panjang mention maka model cenderung mendapatkan mention recall yang lebih sedikit. Eksperimen hyperparameter tuning pada Tesis ini membuktikan bahwa hyperparameter default dari penelitian Dobrovolskii (2021) adalah hyperparameter terbaik.