digilib@itb.ac.id +62 812 2508 8800

Cover
PUBLIC karya

Abstrak
PUBLIC karya

Abstract
PUBLIC karya

Lembar Pengesahan
PUBLIC karya

Tugas Akhir
PUBLIC karya

Beberapa teks seperti hasil pengenalan suara otomatis seringkali tidak disertai dengan tanda baca. Penyisipan tanda baca pada teks tersebut dapat meningkatkan keterbacaan dari teks tersebut. Terdapat tiga pendekatan yang dapat digunakan dalam menyisipkan tanda baca, yaitu pemodelan bahasa, pelabelan sekuens, dan penerjemah mesin. Tugas akhir ini berfokus pada penyisipan tanda baca dengan pendekatan penerjemah mesin. Tugas akhir ini memprediksi empat tanda baca, yakni titik, koma, tanda seru, dan tanda tanya. Dataset yang digunakan dalam tugas akhir diperoleh dari hasil scraping transkripsi pidato dan wawancara pada situs web Kementerian Sekretariat Negara RI dan Sekretariat Kabinet, dengan jumlah data latih 199.019 baris dan data uji 22.114 baris. Karena menggunakan pendekatan penerjemah mesin, terdapat kemungkinan perbedaan panjang antara hasil prediksi model dengan masukan. Untuk menangani perbedaan panjang tersebut, penelitian ini memotong dan menambah padding pada hasil agar panjangnya sesuai dengan masukan. Model terbaik didapatkan dari model Transformer yang menggunakan word embedding pralatih pada bahasa target dengan checkpoint averaging sebesar 16. Model ini menghasilkan nilai weighted average F1-score 0,5292, dengan nilai F1- score untuk tanda titik, koma, tanda seru, dan tanda tanya berturut-turut adalah 0,5166, 0,5432, 0,2617, dan 0,3929