digilib@itb.ac.id +62 812 2508 8800

Pada era digital dimana teknologi yang digunakan oleh manusia semakin berkembang. Perkembangan teknologi ini sejalan dengan berkembangnya metode interaksi antara manusia dengan teknologi yang memudahkan manusia dalam penggunaan teknologi tersebut. Perangkat smart speaker merupakan salah satu teknologi yang menggunakan suara sebagai perintah, dengan begitu manusia dapat berinteraksi dari jarak jauh. Namun pada saat ini penggunaan perangkat smart speaker masih minim digunakan karena masih menggunakan Bahasa Inggris sebagai bahasa bawaannya, sehingga perlu dikembangkan sistem ASR berbahasa Indonesia. Pada penelitian ini dilakukan eksperimen untuk menentukan konfigurasi hyperparameter untuk membangun model dengan konfigurasi terbaik sistem ASR yang akan ditanamkan pada perangkat smart speaker. Dilakukan pula augmentasi data latih untuk menangani kasus ketersediaan data latih. Setelah berhasil melakukan semuanya, dipilih model terbaik dan optimal untuk ditanamkan pada perangkat smart speaker. Pada penelitian ini didapati model akustik dengan pendekatan neural network dengan topologi TDNN-HMM dengan konfigurasi terbaik hasil eksperimen. Model bahasa dengan pendekatan model statistikal n-gram dengan nilai n=4. Serta didapatkan model terbaik dan optimal untuk ditanamkan pada perangkat smart speaker dengan nilai WER 10.89% dan waktu inferensi 0.64 detik untuk melakukan decoding.