Perpustakaan Digital - Digilib ITB

PEMBANGUNAN SISTEM PENGENAL UCAPAN BAHASA INDONESIA BERBASIS DEEP NEURAL NETWORK UNTUK PEMBERIAN SULIH TEKS PADA REKAMAN VIDEO SIARAN BERITA

290 views

Penulis	:	Mochamad Alghifari [13516038]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T., M.Eng., Ph.D.
Jenis Koleksi	:	Tugas Akhir
Tahun Terbit	:
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	CNN-HMM, model akustik, korpus suara, korpus teks, siaran berita
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	0 file
Tanggal Input	:	10 Agu 2022

Sistem pengenal ucapan domain siaran berita yang dapat menghasilkan sulih teks secara otomatis dan cepat dibangun dalam rangka meningkatkan aksesibilitas bagi para penonton siaran berita yang mengalami kesulitan mendengar. Korpus suara dan korpus teks domain siaran berita serta teknik pemodelan akustik yang tepat diperlukan untuk membangun sistem pengenal suara domain siaran berita. Pada tugas akhir ini dibahas pembangunan korpus suara dan korpus teks domain siaran berita serta pembangunan model akustik, model bahasa, dan leksikon yang kemudian diintegrasikan menjadi sistem pengenal suara. Korpus suara didapatkan dari rekaman siaran berita yang kemudian dianotasi. Korpus teks didapatkan dari transkripsi hasil anotasi pada korpus suara, web scraping berita daring yang relevan, dan kumpulan berita daring yang dibuat oleh ILPS, Informatics Institute, University of Amsterdam. Leksikon dibangun menggunakan generator leksikon Bahasa Indonesia. Teknik pemodelan akustik terbaik dipilih dari hasil perbandingan teknik GMM-HMM, DNN-HMM, dan CNN-HMM. Penentuan korpus suara terbaik dilakukan dengan membandingkan word error rate (WER) dari model akustik yang dibangun. Korpus teks terbaik ditentukan dari nilai out of vocabulary (OOV) dan perplexity dari model bahasa yang dibangun. Korpus suara dan korpus teks terbaik digunakan untuk membandingkan WER pada ketiga model akustik. Penggunaan teknik CNN-HMM meningkatkan performansi sistem pengenal suara sebesar 4.42% dibandingkan teknik GMM-HMM dan 1.98% dibandingkan teknik DNN-HMM. Oleh karena itu, model akustik yang dibangun dengan teknik CNN- HMM dipilih untuk dijadikan diintegrasikan dengan sistem pemberian sulih teks.

Perpustakaan Digital ITB

PEMBANGUNAN SISTEM PENGENAL UCAPAN BAHASA INDONESIA BERBASIS DEEP NEURAL NETWORK UNTUK PEMBERIAN SULIH TEKS PADA REKAMAN VIDEO SIARAN BERITA

Artikel Terkait