digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
PUBLIC Open In Flipbook Dessy Rondang Monaomi Ringkasan

BERTSUMEXT merupakan arsitektur peringkasan ekstraktif yang menghasilkan representasi kalimat dengan berbasis token cls. Representasi kalimat dari token [cls] ini memengaruhi kemampuan model dalam memilih kalimat yang paling representatif untuk peringkasan teks. Selain itu, arsitektur ini memiliki keterbatasan dalam merepresentasikan kalimat dengan batasan panjang dokumen maksimal 512 token. Penelitian ini mengusulkan modifikasi BERTSUMEXT dalam peringkasan teks ekstraktif dengan menggantikan representasi kalimat dari token [CLS] pada BERTSUMEXT dengan representasi kalimat dari IndoSBERT. IndoSBERT adalah model yang secara khusus dilatih untuk menghasilkan representasi kalimat yang memiliki makna semantik. IndoSBERT telah terbukti dapat meningkatkan kinerja model REFRESH pada peringkasan teks ekstraktif. Selain itu, modifikasi representasi kalimat pada BERTSUMEXT dengan menggunakan IndoSBERT memungkinkan pemrosesan dokumen panjang tanpa batasan 512 token. Hal ini karena IndoSBERT memproses dokumen dengan langsung mengubah setiap kalimat utuh. Maka dari itu, penelitian ini berfokus pada analisis bagaimana modifikasi representasi kalimat dari IndoSBERT ke dalam BERTSUMEXT memengaruhi kinerja model peringkasan dalam teks bahasa Indonesia. Hasil eksperimen menunjukkan bahwa SBERTSUMEXT meningkatkan nilai ROUGE pada dataset XLSum-Indonesia. Model ini menggunakan IndoSBERT yang dilatih pada IndoBERT-base-p2 dari IndoNLU dalam skenario 2 kalimat ringkasan, 2 layer Inter-Sentence Transformer, dan n_head 8. SBERTSUMEXT menghasilkan nilai ROUGE-1 23.54, ROUGE-2 7.47 dan ROUGE-L 17.52 yang menunjukkan peningkatan kinerja dibandingkan BERTSUMEXT, dengan skor ROUGE-1 meningkat sebesar 1.64%, ROUGE-2 meningkat 5.21%, dan ROUGE-L meningkat 3.18%. F1-score klasifikasi terhadap pseudo label menjadi 30,99%, lebih tinggi dibandingkan 30,29% pada baseline. Selain itu, BERTScore SBERTSUMEXT mencapai 71,52, lebih tinggi dibandingkan BERTSUMEXT yang memperoleh 71,27. Analisis distribusi posisi kalimat penting menunjukkan bahwa SBERTSUMEXT lebih fleksibel dibandingkan BERTSUMEXT dalam memilih kalimat penting, karena mampu menangkap informasi yang tersebar di berbagai bagian dokumen, bukan hanya di awal paragraf. ii Pada dataset Liputan6, tidak menghasilkan peningkatan dalam kinerja ringkasan berdasarkan metrik ROUGE. Namun, dari segi waktu, model ini menunjukkan keunggulan dalam kecepatan komputasi, dengan waktu pelatihan 1.93 kali lebih cepat dibandingkan model baseline. Tidak hanya pada dataset liputan6, pada dataset XLSum-Indonesia, SbertSumExt lebih cepat 1.5 kali dibanding baseline pada jumlah parameter yang sama. Penelitian ini menyimpulkan bahwa IndoSBERT dapat digunakan sebagai representasi kalimat dalam BERTSUMEXT untuk meningkatkan kualitas peringkasan ekstraktif, terutama untuk dataset dengan dokumen panjang. Selain itu, penggunaan IndoSBERT juga berkontribusi pada efisiensi waktu komputasi dalam proses pelatihan model. Hasil penelitian ini memberikan wawasan baru untuk pengembangan lebih lanjut dalam tugas peringkasan teks berbahasa Indonesia dengan memanfaatkan keunggulan IndoSBERT sebagai sentence encoder.