Perpustakaan Digital ITB

Advanced Search

PENYISIPAN TANDA BACA DENGAN PENERJEMAH MESIN PADA KALIMAT BAHASA INDONESIA

2 views

Penulis	:	Rifqi Rifaldi Utomo [13516098]
Kontributor / Dosen Pembimbing	:	Dr. Masayu Leylia Khodra, S.T., M.T. Fariska Zakhralativa Ruskanda, S.T., M.T.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	penyisipan tanda baca, Transformer, word embedding, checkpoint averaging
Sumber	:
Staf Input/Edit	:	karya
File	:	5 file
Tanggal Input	:	21 Sep 2020

PUBLIC Open In Flip Book karya

PUBLIC Open In Flip Book karya

PUBLIC Open In Flip Book karya

Lembar Pengesahan

PUBLIC Open In Flip Book karya

PUBLIC Open In Flip Book karya

Beberapa teks seperti hasil pengenalan suara otomatis seringkali tidak disertai dengan tanda baca. Penyisipan tanda baca pada teks tersebut dapat meningkatkan keterbacaan dari teks tersebut. Terdapat tiga pendekatan yang dapat digunakan dalam menyisipkan tanda baca, yaitu pemodelan bahasa, pelabelan sekuens, dan penerjemah mesin. Tugas akhir ini berfokus pada penyisipan tanda baca dengan pendekatan penerjemah mesin. Tugas akhir ini memprediksi empat tanda baca, yakni titik, koma, tanda seru, dan tanda tanya. Dataset yang digunakan dalam tugas akhir diperoleh dari hasil scraping transkripsi pidato dan wawancara pada situs web Kementerian Sekretariat Negara RI dan Sekretariat Kabinet, dengan jumlah data latih 199.019 baris dan data uji 22.114 baris. Karena menggunakan pendekatan penerjemah mesin, terdapat kemungkinan perbedaan panjang antara hasil prediksi model dengan masukan. Untuk menangani perbedaan panjang tersebut, penelitian ini memotong dan menambah padding pada hasil agar panjangnya sesuai dengan masukan. Model terbaik didapatkan dari model Transformer yang menggunakan word embedding pralatih pada bahasa target dengan checkpoint averaging sebesar 16. Model ini menghasilkan nilai weighted average F1-score 0,5292, dengan nilai F1- score untuk tanda titik, koma, tanda seru, dan tanda tanya berturut-turut adalah 0,5166, 0,5432, 0,2617, dan 0,3929