Hasil Ringkasan
Dokumen Asli CLICKBAIT SPOILING DENGAN SUMBER DAYA TERBATAS UNTUK BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA PRA-LATIH MULTIBAHASA TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Oleh NI PUTU INTAN MAHARANI NIM: 23522048 (Program Studi Magister Informatika) INSTITUT TEKNOLOGI BANDUNG MARET 2024 Dokumen Asli i ABSTRAK CLICKBAIT SPOILING DENGAN SUMBER DAYA TERBATAS UNTUK BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA PRA-LATIH MULTIBAHASA Oleh Ni Putu Intan Maharani NIM: 23522048 (Program Studi Magister Informatika) Clickbait spoiling merupakan task baru yang bertujuan untuk menghasilkan spoiler dari unggahan atau headlines yang mengandung clickbait. Penelitian sebelumnya menyelesaikan task ini dalam bahasa Inggris dengan memperlakukan task ini sebagai persoalan question answering. Model terbaik yang dihasilkan memiliki kinerja yang menjanjikan dengan BERTScore sebesar 77,03 untuk spoiler tipe phrase dan 51,06 untuk spoiler tipe passage. Dengan keterbatasan data berlabel clickbait spoiling dalam bahasa Indonesia, implementasi clickbait spoiling untuk bahasa Indonesia menjadi tantangan tersendiri. Pada penelitian ini, data uji clickbait spoiling dalam bahasa Indonesia dikonstruksi untuk mengevaluasi kinerja model clickbait spoiling yang dikembangkan. Selain itu, eksperimen terhadap beberapa pendekatan pelatihan terhadap model bahasa pra-latih multibahasa dilakukan dengan keterbatasan data berlabel untuk pelatihan. Data uji clickbait spoiling dalam bahasa Indonesia Indonesian Clickbait Spoiling Corpus dikonstruksi dengan mengguna kan data artikel berita online, terutama judul dan isi konten artikel. Data IndoSUM digunakan sebagai titik awal konstruksi data clickbait spoiling. Untuk menyaring data agar hanya berisikan judul artikel yang mengandung clickbait, model klasifikasi clickbait dikembangkan dengan mengguna kan model pra-latih IndoBERT dan data klasifikasi clickbait dalam bahasa Indonesia CLICK-ID. Kemudian dilakukan anotasi spoiler secara ekstraktif diidentifikasi tipe dari spoiler yang telah dianotasi. Data yang sudah dianotasi kemudian divalidasi oleh 2 orang validator yang merupakan penutur asli bahasa Indonesia. Dengan keterbatasan data latih clickbait spoiling dalam bahasa Indonesia, eksperimen terkait teknik pelatihan model seperti zero-shot cross-lingual learning, fine-tuning lanjutan, semi-supervised learning consistency training, dan adapter dilakukan. Untuk pendekatan zero-shot cross-lingual learning, digunakan Webis Clickbait Spoiling Corpus 2022 yang berbahasa Inggris untuk melatih model bahasa pra-latih multibahasa seperti mBERT, XLM-RoBERTa, dan mDeBERTaV3. Model dilatih sebagai question answering task yang kemudian Dokumen Asli ii dievaluasi dengan Indonesian Clickbait Spoiling Corpus. Pendekatan zero-shot cross-lingual learning ini digunakan sebagai baseline. Penelitian sebelumnya untuk clickbait spoiling melakukan fine-tuning lanjutan di mana model bahasa terlebih dahulu di-fine-tune dengan data latih question answering. Pada penelitian ini, model bahasa pra-latih multibahasa terlebih dahulu di-fine-tune dengan data latih question answering seperti SQuADv2 yang berbahasa Inggris dan IDK-MRC yang berbahasa Indonesia. Kemudian, model di-fine-tune kembali dengan menggunakan Webis Clickbait Spoiling Corpus 2022. Salah satu pendekatan semi-supervised learning yaitu consistency training juga digunakan yang mana memanfaatkan data tidak berlabel untuk pelatihan. Teknik pelatihan ini memiliki tujuan yaitu meminimalkan supervised loss dengan mengguna kan data berlabel dan meminimalkan consistency loss dengan mengguna kan data tidak berlabel.