Perpustakaan Digital - Digilib ITB

PENGEMBANGAN SISTEM TEXT-TO-SPEECH PADA SMART SPEAKER BAHASA INDONESIA

137 views

Penulis	:	Ignatius David Partogi [13518014]
Kontributor / Dosen Pembimbing	:	Prof. Trio Adiono, S.T, M.T, Ph.D. Dessi Puji Lestari, S.T, M.Eng., Ph.D.
Jenis Koleksi	:	Tugas Akhir
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Sistem smart speaker, Sistem TTS, Tacotron 2, Parallel WaveGAN, MOS, SUS.
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	06 Mar 2023

13518014 Ignatius David Partogi.pdf
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Sistem smart speaker yang beredar pada umumnya menggunakan bahasa Inggris, padahal kemampuan berbahasa Inggris orang Indonesia tergolong rendah. Sistem smart speaker memiliki tiga buah komponen, yaitu Automatic Speech Recognition (ASR), Natural Language Processing (NLP), dan Text-to-Speech (TTS). Sistem End-to-End (E2E) TTS merupakan sistem TTS yang dapat langsung memproses masukan teks menjadi keluaran berupa audio dan memiliki dua bagian, yaitu spectrogram generator dan vocoder. Sistem TTS pada penelitian ini dibangun dengan menggunakan Tacotron 2 yang merupakan state of the art dalam TTS sebagai spectrogram generator dan Parallel WaveGAN sebagai vocoder. Set data yang digunakan pada penelitian berupa 3000 buah pasangan audio dan kalimat yang bersumber dari audiobook buku-buku sekolah dan kuliah berbahasa Indonesia, dengan durasi total selama 9 jam 22 menit 30 detik. Pengujian Mean Opinion Score (MOS) dari sistem TTS pada penelitian ini menghasilkan skor 3,24 ± 0,29. Adapun pengujian Semantically Unpredictable Sentence (SUS) dari sistem TTS pada penelitian ini menghasilkan nilai akurasi (91.82 ± 7.63)%.

Perpustakaan Digital ITB

PENGEMBANGAN SISTEM TEXT-TO-SPEECH PADA SMART SPEAKER BAHASA INDONESIA

Artikel Terkait