digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Dessy Rondang Monaomi

Peringkasan teks adalah bidang dalam pemrosesan bahasa alami yang bertujuan menghasilkan ringkasan dari teks dengan menghilangkan informasi redundan, sehingga menciptakan versi yang lebih singkat namun tetap memuat informasi penting. Peringkasan teks dapat dibagi menjadi dua yaitu ekstraktif dan abstraktif. Penelitian ini berfokus pada peringkasan abstraktif yang menghasilkan ringkasan dengan mengungkapkan kembali informasi utama menggunakan gaya bahasa yang berbeda dari teks aslinya. Dalam beberapa tahun terakhir, model berbasis neural, khususnya yang menggunakan arsitektur transformer, semakin populer dalam peringkasan teks. Salah satu model unggulan yaitu BERTSum, menggunakan BERT sebagai encoder untuk memperoleh representasi fitur dari dokumen. Model BERTSum terbukti unggul dibandingkan model-model peringkasan teks abstraktif lainnya. Evaluasi peringkasan teks abstraktif memerlukan dataset yang dirancang khusus dengan proporsi novel n-gram yang tinggi pada label ringkasan, yang menunjukkan bahwa konten ringkasan tersebut unik dan orisinal. Oleh karena itu, penelitian ini menggunakan dataset XL-Sum Indonesia karena memiliki persentase novel n-gram tertinggi di antara dataset Indonesia lainnya, sebagai basis untuk mengembangkan model peringkasan teks abstraktif. Penelitian tentang BERT untuk peringkasan teks Bahasa Indonesia sampai saat ini masih terbatas. Penelitian sebelumnya membandingkan BERT Indonesia dan BERT Inggris dan menyimpulkan bahwa kinerja BERT Inggris lebih baik dibandingkan BERT Indonesia. Secara teori, kinerja BERT Indonesia seharusnya lebih baik karena melewati proses pretraining menggunakan korpus bahasa Indonesia. Penelitian ini bertujuan menyelidiki penyebab fenomena ini. Model berbasis transformer seperti BERTSum memiliki keunggulan, namun juga keterbatasan dalam jumlah token yang dapat digunakan sebagai input. BERT memiliki batasan 512 token, yang sering kali menyebabkan dokumen terpotong dan informasi penting terlewat, terutama pada dokumen panjang. Pemodelan topik, yang mengidentifikasi topik tersembunyi dalam dokumen, dapat membantu mengatasi masalah ini dengan menangkap semantik global dokumen. Kombinasi antara model topik dan transformer dapat meningkatkan pemahaman model terhadap keseluruhan dokumen. Metode TEMA (Topic Embedding Masked Attention) menggabungkan topic embedding dari distribusi topik dengan mekanisme masked attention untuk menghasilkan ringkasan berdasarkan topik. TEMA telah terbukti meningkatkan kinerja model dan dapat lebih ditingkatkan menggunakan topik yang lebih berkualitas. BERTopic adalah salah satu metode pemodelan topik yang menggunakan representasi semantik berbasis BERT untuk menghasilkan topik berkualitas tinggi dan mudah dipahami. BERTopic memiliki keunggulan dibandingkan model topik tradisional karena menggunakan embedding dari model transformer, menghasilkan representasi dokumen yang lebih kaya dan kontekstual. Penelitian ini bertujuan mengadaptasi model BERTSum agar dapat digunakan untuk meringkas teks bahasa Indonesia secara abstraktif pada dataset XL-Sum Indonesia. Selain itu, penelitian ini mengevaluasi pengaruh metode TEMA pada kinerja BERTSum, dengan memanfaatkan topic embedding dari model BERTopic untuk mengatasi batasan jumlah token input. Hasil penelitian ini menunjukkan bahwa model BERTSum dengan BERT Indonesia mencapai kinerja yang lebih baik dibandingkan dengan BERT Inggris setelah melalui tahap optimasi. Kinerja BERTSum juga meningkat dengan penerapan metode TEMA, terutama pada teks-teks pendek, meskipun kinerjanya berfluktuasi pada teks yang lebih panjang dari 1000 kata. Penggunaan topic embedding dari BERTopic memberikan hasil yang lebih baik dibandingkan model topik konvensional. Model usulan penelitian ini mencapai skor ROUGE-1 sebesar 25,39%, ROUGE-2 sebesar 9,16%, dan ROUGE-L sebesar 20,61% pada dataset XL-Sum Indonesia, dengan peningkatan rata-rata 4,71% terhadap model baseline.