Pada era digital dimana teknologi yang digunakan oleh manusia semakin berkembang.
Perkembangan teknologi ini sejalan dengan berkembangnya metode interaksi antara manusia
dengan teknologi yang memudahkan manusia dalam penggunaan teknologi tersebut. Perangkat
smart speaker merupakan salah satu teknologi yang menggunakan suara sebagai perintah, dengan
begitu manusia dapat berinteraksi dari jarak jauh. Namun pada saat ini penggunaan perangkat
smart speaker masih minim digunakan karena masih menggunakan Bahasa Inggris sebagai bahasa
bawaannya, sehingga perlu dikembangkan sistem ASR berbahasa Indonesia.
Pada penelitian ini dilakukan eksperimen untuk menentukan konfigurasi hyperparameter untuk
membangun model dengan konfigurasi terbaik sistem ASR yang akan ditanamkan pada perangkat
smart speaker. Dilakukan pula augmentasi data latih untuk menangani kasus ketersediaan data
latih. Setelah berhasil melakukan semuanya, dipilih model terbaik dan optimal untuk ditanamkan
pada perangkat smart speaker.
Pada penelitian ini didapati model akustik dengan pendekatan neural network dengan topologi
TDNN-HMM dengan konfigurasi terbaik hasil eksperimen. Model bahasa dengan pendekatan
model statistikal n-gram dengan nilai n=4. Serta didapatkan model terbaik dan optimal untuk
ditanamkan pada perangkat smart speaker dengan nilai WER 10.89% dan waktu inferensi 0.64
detik untuk melakukan decoding.