digilib@itb.ac.id +62 812 2508 8800

Dokumen Asli
Terbatas  Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Sistem penerjemah speech-to-speech (S2ST) dikembangkan untuk menjembatani komunikasi antar bahasa. Meskipun teknologi ini telah berkembang selama beberapa dekade, masih banyak yang bergantung pada teks tertulis. Dengan lebih dari 7000 bahasa di dunia dan setengahnya tanpa format penulisan, membangun S2ST andal untuk low-resource languages menjadi tantangan besar, sehingga penelitian penerjemah ucapan tanpa transkripsi menjadi tren. Namun, pelatihan S2ST memerlukan banyak data ucapan berpasangan dari bahasa sumber dan target, yang pembuatannya mahal dan memakan waktu. Model Visually Grounded Speech (VGS) memiliki potensi mengatasi tantangan ini sebagai sistem multimodal. Penelitian ini bertujuan untuk mengembangkan S2ST tanpa transkripsi menggunakan data pasangan ucapan yang dihasilkan dari sistem penyelaras dengan metode pembelajaran self-supervised. Dibangun sistem penyelaras berbasis model VGS untuk mendapatkan pseudo-pairs ucapan di kedua bahasa berdasarkan kesamaan semantik gambar yang relevan menggunakan metode cross speech- image similarity. Sistem penyelaras ini dikembangkan lebih lanjut untuk dapat menghasilkan pasangan segmen ucapan di kedua bahasa untuk meningkatkan kualitas data dalam pemodelan penerjemah. Korpus paralel yang telah dihasilkan sistem penyelaras digunakan untuk membangun sistem penerjemah ucapan tanpa transkripsi dengan model sequence-to-sequence. Model ini dilatih menggunakan kuantisasi sequence unit diskrit sebagai representasi sinyal ucapan. Sistem penyelaras diuji dengan speech-image retrieval score dengan rata-rata R@10 pada model terbaik adalah 66,05% dan F1-score speech alignment terbaik adalah 27,12%-29,78. Sistem penyelaras menghasilkan total 22836 data pasangan ucapan dan 10854 pasangan segmen ucapan. Sistem penerjemah ucapan berhasil dibangun dengan rata-rata skor SacreBLEU pada model terbaik adalah 36,8262%. Pada penelitian ini, ditemukan bahwa pemanfaatan data pasangan segmen ucapan meningkatkan SacreBLEU sebesar 1,229% - 1,356%. Meskipun eksperimen pada penelitian ini dilakukan hanya pada bahasa Indonesia-Inggris, kerangka kerja sistem dapat diterapkan pada bahasa lain.