Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan
Sistem penerjemah speech-to-speech (S2ST) dikembangkan untuk menjembatani
komunikasi antar bahasa. Meskipun teknologi ini telah berkembang selama
beberapa dekade, masih banyak yang bergantung pada teks tertulis. Dengan lebih
dari 7000 bahasa di dunia dan setengahnya tanpa format penulisan, membangun
S2ST andal untuk low-resource languages menjadi tantangan besar, sehingga
penelitian penerjemah ucapan tanpa transkripsi menjadi tren. Namun, pelatihan
S2ST memerlukan banyak data ucapan berpasangan dari bahasa sumber dan target,
yang pembuatannya mahal dan memakan waktu. Model Visually Grounded Speech
(VGS) memiliki potensi mengatasi tantangan ini sebagai sistem multimodal.
Penelitian ini bertujuan untuk mengembangkan S2ST tanpa transkripsi
menggunakan data pasangan ucapan yang dihasilkan dari sistem penyelaras dengan
metode pembelajaran self-supervised. Dibangun sistem penyelaras berbasis model
VGS untuk mendapatkan pseudo-pairs ucapan di kedua bahasa berdasarkan
kesamaan semantik gambar yang relevan menggunakan metode cross speech-
image similarity. Sistem penyelaras ini dikembangkan lebih lanjut untuk dapat
menghasilkan pasangan segmen ucapan di kedua bahasa untuk meningkatkan
kualitas data dalam pemodelan penerjemah. Korpus paralel yang telah dihasilkan
sistem penyelaras digunakan untuk membangun sistem penerjemah ucapan tanpa
transkripsi dengan model sequence-to-sequence. Model ini dilatih menggunakan
kuantisasi sequence unit diskrit sebagai representasi sinyal ucapan.
Sistem penyelaras diuji dengan speech-image retrieval score dengan rata-rata
R@10 pada model terbaik adalah 66,05% dan F1-score speech alignment terbaik
adalah 27,12%-29,78. Sistem penyelaras menghasilkan total 22836 data pasangan
ucapan dan 10854 pasangan segmen ucapan. Sistem penerjemah ucapan berhasil
dibangun dengan rata-rata skor SacreBLEU pada model terbaik adalah 36,8262%.
Pada penelitian ini, ditemukan bahwa pemanfaatan data pasangan segmen ucapan
meningkatkan SacreBLEU sebesar 1,229% - 1,356%. Meskipun eksperimen pada
penelitian ini dilakukan hanya pada bahasa Indonesia-Inggris, kerangka kerja
sistem dapat diterapkan pada bahasa lain.