Beberapa teks seperti hasil pengenalan suara otomatis seringkali tidak disertai
dengan tanda baca. Penyisipan tanda baca pada teks tersebut dapat meningkatkan
keterbacaan dari teks tersebut. Terdapat tiga pendekatan yang dapat digunakan
dalam menyisipkan tanda baca, yaitu pemodelan bahasa, pelabelan sekuens, dan
penerjemah mesin. Tugas akhir ini berfokus pada penyisipan tanda baca dengan
pendekatan penerjemah mesin.
Tugas akhir ini memprediksi empat tanda baca, yakni titik, koma, tanda seru, dan
tanda tanya. Dataset yang digunakan dalam tugas akhir diperoleh dari hasil
scraping transkripsi pidato dan wawancara pada situs web Kementerian Sekretariat
Negara RI dan Sekretariat Kabinet, dengan jumlah data latih 199.019 baris dan data
uji 22.114 baris. Karena menggunakan pendekatan penerjemah mesin, terdapat
kemungkinan perbedaan panjang antara hasil prediksi model dengan masukan.
Untuk menangani perbedaan panjang tersebut, penelitian ini memotong dan
menambah padding pada hasil agar panjangnya sesuai dengan masukan.
Model terbaik didapatkan dari model Transformer yang menggunakan word
embedding pralatih pada bahasa target dengan checkpoint averaging sebesar 16.
Model ini menghasilkan nilai weighted average F1-score 0,5292, dengan nilai F1-
score untuk tanda titik, koma, tanda seru, dan tanda tanya berturut-turut adalah 0,5166,
0,5432, 0,2617, dan 0,3929