Peringkasan teks adalah bidang dalam pemrosesan bahasa alami yang bertujuan
menghasilkan ringkasan dari teks dengan menghilangkan informasi redundan,
sehingga menciptakan versi yang lebih singkat namun tetap memuat informasi
penting. Peringkasan teks dapat dibagi menjadi dua yaitu ekstraktif dan abstraktif.
Penelitian ini berfokus pada peringkasan abstraktif yang menghasilkan ringkasan
dengan mengungkapkan kembali informasi utama menggunakan gaya bahasa yang
berbeda dari teks aslinya.
Dalam beberapa tahun terakhir, model berbasis neural, khususnya yang
menggunakan arsitektur transformer, semakin populer dalam peringkasan teks.
Salah satu model unggulan yaitu BERTSum, menggunakan BERT sebagai encoder
untuk memperoleh representasi fitur dari dokumen. Model BERTSum terbukti
unggul dibandingkan model-model peringkasan teks abstraktif lainnya.
Evaluasi peringkasan teks abstraktif memerlukan dataset yang dirancang khusus
dengan proporsi novel n-gram yang tinggi pada label ringkasan, yang menunjukkan
bahwa konten ringkasan tersebut unik dan orisinal. Oleh karena itu, penelitian ini
menggunakan dataset XL-Sum Indonesia karena memiliki persentase novel n-gram
tertinggi di antara dataset Indonesia lainnya, sebagai basis untuk mengembangkan
model peringkasan teks abstraktif.
Penelitian tentang BERT untuk peringkasan teks Bahasa Indonesia sampai saat ini
masih terbatas. Penelitian sebelumnya membandingkan BERT Indonesia dan BERT
Inggris dan menyimpulkan bahwa kinerja BERT Inggris lebih baik dibandingkan
BERT Indonesia. Secara teori, kinerja BERT Indonesia seharusnya lebih baik
karena melewati proses pretraining menggunakan korpus bahasa Indonesia.
Penelitian ini bertujuan menyelidiki penyebab fenomena ini.
Model berbasis transformer seperti BERTSum memiliki keunggulan, namun juga
keterbatasan dalam jumlah token yang dapat digunakan sebagai input. BERT
memiliki batasan 512 token, yang sering kali menyebabkan dokumen terpotong dan
informasi penting terlewat, terutama pada dokumen panjang. Pemodelan topik,
yang mengidentifikasi topik tersembunyi dalam dokumen, dapat membantu
mengatasi masalah ini dengan menangkap semantik global dokumen. Kombinasi
antara model topik dan transformer dapat meningkatkan pemahaman model
terhadap keseluruhan dokumen.
Metode TEMA (Topic Embedding Masked Attention) menggabungkan topic
embedding dari distribusi topik dengan mekanisme masked attention untuk
menghasilkan ringkasan berdasarkan topik. TEMA telah terbukti meningkatkan
kinerja model dan dapat lebih ditingkatkan menggunakan topik yang lebih
berkualitas. BERTopic adalah salah satu metode pemodelan topik yang
menggunakan representasi semantik berbasis BERT untuk menghasilkan topik
berkualitas tinggi dan mudah dipahami. BERTopic memiliki keunggulan
dibandingkan model topik tradisional karena menggunakan embedding dari model
transformer, menghasilkan representasi dokumen yang lebih kaya dan kontekstual.
Penelitian ini bertujuan mengadaptasi model BERTSum agar dapat digunakan
untuk meringkas teks bahasa Indonesia secara abstraktif pada dataset XL-Sum
Indonesia. Selain itu, penelitian ini mengevaluasi pengaruh metode TEMA pada
kinerja BERTSum, dengan memanfaatkan topic embedding dari model BERTopic
untuk mengatasi batasan jumlah token input.
Hasil penelitian ini menunjukkan bahwa model BERTSum dengan BERT Indonesia
mencapai kinerja yang lebih baik dibandingkan dengan BERT Inggris setelah
melalui tahap optimasi. Kinerja BERTSum juga meningkat dengan penerapan
metode TEMA, terutama pada teks-teks pendek, meskipun kinerjanya berfluktuasi
pada teks yang lebih panjang dari 1000 kata. Penggunaan topic embedding dari
BERTopic memberikan hasil yang lebih baik dibandingkan model topik
konvensional. Model usulan penelitian ini mencapai skor ROUGE-1 sebesar
25,39%, ROUGE-2 sebesar 9,16%, dan ROUGE-L sebesar 20,61% pada dataset
XL-Sum Indonesia, dengan peningkatan rata-rata 4,71% terhadap model baseline.