Sistem pengenal ucapan domain siaran berita yang dapat menghasilkan sulih teks secara otomatis dan cepat dibangun dalam rangka meningkatkan aksesibilitas bagi para penonton siaran berita yang mengalami kesulitan mendengar. Korpus suara dan korpus teks domain siaran berita serta teknik pemodelan akustik yang tepat diperlukan untuk membangun sistem pengenal suara domain siaran berita. Pada tugas akhir ini dibahas pembangunan korpus suara dan korpus teks domain siaran berita serta pembangunan model akustik, model bahasa, dan leksikon yang kemudian diintegrasikan menjadi sistem pengenal suara.
Korpus suara didapatkan dari rekaman siaran berita yang kemudian dianotasi. Korpus teks didapatkan dari transkripsi hasil anotasi pada korpus suara, web scraping berita daring yang relevan, dan kumpulan berita daring yang dibuat oleh ILPS, Informatics Institute, University of Amsterdam. Leksikon dibangun menggunakan generator leksikon Bahasa Indonesia. Teknik pemodelan akustik terbaik dipilih dari hasil perbandingan teknik GMM-HMM, DNN-HMM, dan CNN-HMM.
Penentuan korpus suara terbaik dilakukan dengan membandingkan word error rate (WER) dari model akustik yang dibangun. Korpus teks terbaik ditentukan dari nilai out of vocabulary (OOV) dan perplexity dari model bahasa yang dibangun. Korpus suara dan korpus teks terbaik digunakan untuk membandingkan WER pada ketiga model akustik.
Penggunaan teknik CNN-HMM meningkatkan performansi sistem pengenal suara sebesar 4.42% dibandingkan teknik GMM-HMM dan 1.98% dibandingkan teknik DNN-HMM. Oleh karena itu, model akustik yang dibangun dengan teknik CNN- HMM dipilih untuk dijadikan diintegrasikan dengan sistem pemberian sulih teks.