Clickbait spoiling merupakan task baru yang bertujuan untuk menghasilkan spoiler
dari unggahan atau headlines yang mengandung clickbait. Penelitian sebelumnya
menyelesaikan task ini dalam bahasa Inggris dengan memperlakukan task ini
sebagai persoalan question answering. Model terbaik yang dihasilkan memiliki
kinerja yang menjanjikan dengan BERTScore sebesar 77,03 untuk spoiler tipe
phrase dan 51,06 untuk spoiler tipe passage. Dengan keterbatasan data berlabel
clickbait spoiling dalam bahasa Indonesia, implementasi clickbait spoiling untuk
bahasa Indonesia menjadi tantangan tersendiri. Pada penelitian ini, data uji clickbait
spoiling dalam bahasa Indonesia dikonstruksi untuk mengevaluasi kinerja model
clickbait spoiling yang dikembangkan. Selain itu, eksperimen terhadap beberapa
pendekatan pelatihan terhadap model bahasa pra-latih multibahasa dilakukan
dengan keterbatasan data berlabel untuk pelatihan.
Data uji clickbait spoiling dalam bahasa Indonesia Indonesian Clickbait Spoiling
Corpus dikonstruksi dengan menggunakan data artikel berita online, terutama
judul dan isi konten artikel. Data IndoSUM digunakan sebagai titik awal konstruksi
data clickbait spoiling. Untuk menyaring data agar hanya berisikan judul artikel
yang mengandung clickbait, model klasifikasi clickbait dikembangkan dengan
menggunakan model pra-latih IndoBERT dan data klasifikasi clickbait dalam
bahasa Indonesia CLICK-ID. Kemudian dilakukan anotasi spoiler secara ekstraktif
diidentifikasi tipe dari spoiler yang telah dianotasi. Data yang sudah dianotasi
kemudian divalidasi oleh 2 orang validator yang merupakan penutur asli bahasa
Indonesia.
Dengan keterbatasan data latih clickbait spoiling dalam bahasa Indonesia,
eksperimen terkait teknik pelatihan model seperti zero-shot cross-lingual learning,
fine-tuning lanjutan, semi-supervised learning consistency training, dan adapter
dilakukan. Untuk pendekatan zero-shot cross-lingual learning, digunakan Webis
Clickbait Spoiling Corpus 2022 yang berbahasa Inggris untuk melatih model
bahasa pra-latih multibahasa seperti mBERT, XLM-RoBERTa, dan
mDeBERTaV3. Model dilatih sebagai question answering task yang kemudian
ii
dievaluasi dengan Indonesian Clickbait Spoiling Corpus. Pendekatan zero-shot
cross-lingual learning ini digunakan sebagai baseline.
Penelitian sebelumnya untuk clickbait spoiling melakukan fine-tuning lanjutan di
mana model bahasa terlebih dahulu di-fine-tune dengan data latih question
answering. Pada penelitian ini, model bahasa pra-latih multibahasa terlebih dahulu
di-fine-tune dengan data latih question answering seperti SQuADv2 yang berbahasa
Inggris dan IDK-MRC yang berbahasa Indonesia. Kemudian, model di-fine-tune
kembali dengan menggunakan Webis Clickbait Spoiling Corpus 2022.
Salah satu pendekatan semi-supervised learning yaitu consistency training juga
digunakan yang mana memanfaatkan data tidak berlabel untuk pelatihan. Teknik
pelatihan ini memiliki tujuan yaitu meminimalkan supervised loss dengan
menggunakan data berlabel dan meminimalkan consistency loss dengan
menggunakan data tidak berlabel. Data tidak berlabel dikumpulkan dari IndoSUM
dan situs berita online CNBC Indonesia. Model klasifikasi clickbait yang
disebutkan sebelumnya juga digunakan untuk menyaring judul artikel yang
mengandung clickbait. Untuk menghasilkan consistency loss, data tidak berlabel
tersebut diaugmentasi dengan cara parafrase melalui back-translation.
Selain itu, pendekatan adapter, sebuah pembelajaran transfer yang parameter-
efficient, digunakan. Task adapter ditambahkan pada model bahasa pra-latih
multibahasa, seperti mBERT dan XLM-Rbase. Task adapter tersebut dilatih dengan
menggunakan data berlabel question answering SQuADv2 atau IDK-MRC, dan
Webis Clickbait Spoiling Corpus. Saat pelatihan, adapter bahasa pra-latih
diaktifkan sesuai dengan bahasa dari data latih. Saat inferensi dengan Indonesian
Clickbait Spoiling Corpus, adapter bahasa pra-latih bahasa Indonesia diaktifkan.
Secara garis besar, pendekatan fine-tuning lanjutan, semi-supervised learning
consistency training, dan adapter menghasilkan model dengan kinerja yang
kompetitif terhadap model baseline (zero-shot cross-lingual learning). Pendekatan
fine-tuning lanjutan dengan menggunakan SQuADv2 mengungguli kinerja
pendekatan lainnya dengan skor SQuAD F1 sebesar 41,519 dan skor IndoSBERT
sebesar 59,522 (XLM-Rlarge). Consistency training juga menghasilkan model
dengan kinerja yang sebagian besar mengungguli model baseline, terutama pada
model bahasa mDeBERTaV3 dengan margin yang cukup signifikan. Pendekatan
adapter menghasilkan model dengan kinerja yang kompetitif terhadap model
baseline. Model XLM-Rbase dengan task adapter yang dilatih dengan SQuADv2
dan Webis Clickbait Spoiling Corpus 2022 memiliki kinerja yang mengungguli
baseline. Pada evaluasi manual terhadap sampel hasil inferensi model, dua kategori
evaluasi untuk mendeskripsikan spoiler yang dihasilkan oleh model diidentifikasi,
yaitu spoiler valid (71%, dengan tiga sub-kategori) dan spoiler tidak valid (29%,
dengan dua sub-kategori).