Perpustakaan Digital - Digilib ITB

CLICKBAIT SPOILING DENGAN SUMBER DAYA TERBATAS UNTUK BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA PRA-LATIH MULTIBAHASA

601 views

Penulis	:	Ni Putu Intan Maharani [23522048]
Kontributor / Dosen Pembimbing	:	Dr. Eng. Ayu Purwarianti, S.T, M.T.
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	clickbait, clickbait spoiling, model bahasa pra-latih multibahasa, zero- shot cross-lingual learning, fine-tuning lanjutan, semi-supervised learning, consistency training, adapter, task adapter.
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	17 Mar 2024

23522048 Ni Putu Intan Maharani.pdf

PUBLIC Open In Flip Book Dessy Rondang Monaomi

Clickbait spoiling merupakan task baru yang bertujuan untuk menghasilkan spoiler dari unggahan atau headlines yang mengandung clickbait. Penelitian sebelumnya menyelesaikan task ini dalam bahasa Inggris dengan memperlakukan task ini sebagai persoalan question answering. Model terbaik yang dihasilkan memiliki kinerja yang menjanjikan dengan BERTScore sebesar 77,03 untuk spoiler tipe phrase dan 51,06 untuk spoiler tipe passage. Dengan keterbatasan data berlabel clickbait spoiling dalam bahasa Indonesia, implementasi clickbait spoiling untuk bahasa Indonesia menjadi tantangan tersendiri. Pada penelitian ini, data uji clickbait spoiling dalam bahasa Indonesia dikonstruksi untuk mengevaluasi kinerja model clickbait spoiling yang dikembangkan. Selain itu, eksperimen terhadap beberapa pendekatan pelatihan terhadap model bahasa pra-latih multibahasa dilakukan dengan keterbatasan data berlabel untuk pelatihan. Data uji clickbait spoiling dalam bahasa Indonesia Indonesian Clickbait Spoiling Corpus dikonstruksi dengan menggunakan data artikel berita online, terutama judul dan isi konten artikel. Data IndoSUM digunakan sebagai titik awal konstruksi data clickbait spoiling. Untuk menyaring data agar hanya berisikan judul artikel yang mengandung clickbait, model klasifikasi clickbait dikembangkan dengan menggunakan model pra-latih IndoBERT dan data klasifikasi clickbait dalam bahasa Indonesia CLICK-ID. Kemudian dilakukan anotasi spoiler secara ekstraktif diidentifikasi tipe dari spoiler yang telah dianotasi. Data yang sudah dianotasi kemudian divalidasi oleh 2 orang validator yang merupakan penutur asli bahasa Indonesia. Dengan keterbatasan data latih clickbait spoiling dalam bahasa Indonesia, eksperimen terkait teknik pelatihan model seperti zero-shot cross-lingual learning, fine-tuning lanjutan, semi-supervised learning consistency training, dan adapter dilakukan. Untuk pendekatan zero-shot cross-lingual learning, digunakan Webis Clickbait Spoiling Corpus 2022 yang berbahasa Inggris untuk melatih model bahasa pra-latih multibahasa seperti mBERT, XLM-RoBERTa, dan mDeBERTaV3. Model dilatih sebagai question answering task yang kemudian ii dievaluasi dengan Indonesian Clickbait Spoiling Corpus. Pendekatan zero-shot cross-lingual learning ini digunakan sebagai baseline. Penelitian sebelumnya untuk clickbait spoiling melakukan fine-tuning lanjutan di mana model bahasa terlebih dahulu di-fine-tune dengan data latih question answering. Pada penelitian ini, model bahasa pra-latih multibahasa terlebih dahulu di-fine-tune dengan data latih question answering seperti SQuADv2 yang berbahasa Inggris dan IDK-MRC yang berbahasa Indonesia. Kemudian, model di-fine-tune kembali dengan menggunakan Webis Clickbait Spoiling Corpus 2022. Salah satu pendekatan semi-supervised learning yaitu consistency training juga digunakan yang mana memanfaatkan data tidak berlabel untuk pelatihan. Teknik pelatihan ini memiliki tujuan yaitu meminimalkan supervised loss dengan menggunakan data berlabel dan meminimalkan consistency loss dengan menggunakan data tidak berlabel. Data tidak berlabel dikumpulkan dari IndoSUM dan situs berita online CNBC Indonesia. Model klasifikasi clickbait yang disebutkan sebelumnya juga digunakan untuk menyaring judul artikel yang mengandung clickbait. Untuk menghasilkan consistency loss, data tidak berlabel tersebut diaugmentasi dengan cara parafrase melalui back-translation. Selain itu, pendekatan adapter, sebuah pembelajaran transfer yang parameter- efficient, digunakan. Task adapter ditambahkan pada model bahasa pra-latih multibahasa, seperti mBERT dan XLM-Rbase. Task adapter tersebut dilatih dengan menggunakan data berlabel question answering SQuADv2 atau IDK-MRC, dan Webis Clickbait Spoiling Corpus. Saat pelatihan, adapter bahasa pra-latih diaktifkan sesuai dengan bahasa dari data latih. Saat inferensi dengan Indonesian Clickbait Spoiling Corpus, adapter bahasa pra-latih bahasa Indonesia diaktifkan. Secara garis besar, pendekatan fine-tuning lanjutan, semi-supervised learning consistency training, dan adapter menghasilkan model dengan kinerja yang kompetitif terhadap model baseline (zero-shot cross-lingual learning). Pendekatan fine-tuning lanjutan dengan menggunakan SQuADv2 mengungguli kinerja pendekatan lainnya dengan skor SQuAD F1 sebesar 41,519 dan skor IndoSBERT sebesar 59,522 (XLM-Rlarge). Consistency training juga menghasilkan model dengan kinerja yang sebagian besar mengungguli model baseline, terutama pada model bahasa mDeBERTaV3 dengan margin yang cukup signifikan. Pendekatan adapter menghasilkan model dengan kinerja yang kompetitif terhadap model baseline. Model XLM-Rbase dengan task adapter yang dilatih dengan SQuADv2 dan Webis Clickbait Spoiling Corpus 2022 memiliki kinerja yang mengungguli baseline. Pada evaluasi manual terhadap sampel hasil inferensi model, dua kategori evaluasi untuk mendeskripsikan spoiler yang dihasilkan oleh model diidentifikasi, yaitu spoiler valid (71%, dengan tiga sub-kategori) dan spoiler tidak valid (29%, dengan dua sub-kategori).

Perpustakaan Digital ITB

CLICKBAIT SPOILING DENGAN SUMBER DAYA TERBATAS UNTUK BAHASA INDONESIA MENGGUNAKAN MODEL BAHASA PRA-LATIH MULTIBAHASA

Artikel Terkait