BERTSUMEXT merupakan arsitektur peringkasan ekstraktif yang menghasilkan
representasi kalimat dengan berbasis token cls. Representasi kalimat dari token
[cls] ini memengaruhi kemampuan model dalam memilih kalimat yang paling
representatif untuk peringkasan teks. Selain itu, arsitektur ini memiliki keterbatasan
dalam merepresentasikan kalimat dengan batasan panjang dokumen maksimal 512
token.
Penelitian ini mengusulkan modifikasi BERTSUMEXT dalam peringkasan teks
ekstraktif dengan menggantikan representasi kalimat dari token [CLS] pada
BERTSUMEXT dengan representasi kalimat dari IndoSBERT. IndoSBERT adalah
model yang secara khusus dilatih untuk menghasilkan representasi kalimat yang
memiliki makna semantik. IndoSBERT telah terbukti dapat meningkatkan kinerja
model REFRESH pada peringkasan teks ekstraktif. Selain itu, modifikasi
representasi kalimat pada BERTSUMEXT dengan menggunakan IndoSBERT
memungkinkan pemrosesan dokumen panjang tanpa batasan 512 token. Hal ini
karena IndoSBERT memproses dokumen dengan langsung mengubah setiap
kalimat utuh. Maka dari itu, penelitian ini berfokus pada analisis bagaimana
modifikasi representasi kalimat dari IndoSBERT ke dalam BERTSUMEXT
memengaruhi kinerja model peringkasan dalam teks bahasa Indonesia.
Hasil eksperimen menunjukkan bahwa SBERTSUMEXT meningkatkan nilai
ROUGE pada dataset XLSum-Indonesia. Model ini menggunakan IndoSBERT
yang dilatih pada IndoBERT-base-p2 dari IndoNLU dalam skenario 2 kalimat
ringkasan, 2 layer Inter-Sentence Transformer, dan n_head 8. SBERTSUMEXT
menghasilkan nilai ROUGE-1 23.54, ROUGE-2 7.47 dan ROUGE-L 17.52 yang
menunjukkan peningkatan kinerja dibandingkan BERTSUMEXT, dengan skor
ROUGE-1 meningkat sebesar 1.64%, ROUGE-2 meningkat 5.21%, dan ROUGE-L
meningkat 3.18%. F1-score klasifikasi terhadap pseudo label menjadi 30,99%,
lebih tinggi dibandingkan 30,29% pada baseline. Selain itu, BERTScore
SBERTSUMEXT mencapai 71,52, lebih tinggi dibandingkan BERTSUMEXT
yang memperoleh 71,27. Analisis distribusi posisi kalimat penting menunjukkan
bahwa SBERTSUMEXT lebih fleksibel dibandingkan BERTSUMEXT dalam
memilih kalimat penting, karena mampu menangkap informasi yang tersebar di
berbagai bagian dokumen, bukan hanya di awal paragraf.
ii
Pada dataset Liputan6, tidak menghasilkan peningkatan dalam kinerja ringkasan
berdasarkan metrik ROUGE. Namun, dari segi waktu, model ini menunjukkan
keunggulan dalam kecepatan komputasi, dengan waktu pelatihan 1.93 kali lebih
cepat dibandingkan model baseline. Tidak hanya pada dataset liputan6, pada
dataset XLSum-Indonesia, SbertSumExt lebih cepat 1.5 kali dibanding baseline
pada jumlah parameter yang sama.
Penelitian ini menyimpulkan bahwa IndoSBERT dapat digunakan sebagai
representasi kalimat dalam BERTSUMEXT untuk meningkatkan kualitas
peringkasan ekstraktif, terutama untuk dataset dengan dokumen panjang. Selain itu,
penggunaan IndoSBERT juga berkontribusi pada efisiensi waktu komputasi dalam
proses pelatihan model. Hasil penelitian ini memberikan wawasan baru untuk
pengembangan lebih lanjut dalam tugas peringkasan teks berbahasa Indonesia
dengan memanfaatkan keunggulan IndoSBERT sebagai sentence encoder.
Perpustakaan Digital ITB