Dari penelitian sebelumnya, penggunaan future context pada model akustik untuk
sistem pengenalan suara bacaan Alquran terlihat mampu meningkatkan kinerja
sistem. Model akustik dengan future context tersebut berupa BLSTM. Penggunaan
BLSTM pada sistem pengenalan suara bacaan Alquran mampu menurunkan nilai
WER dengan rata-rata 4,63% dibandingkan model GMM. Akan tetapi, kemampuan
model BLSTM dalam memprediksi harus ditukar dengan komputasi yang mahal
karena kompleksitas arsitekturnya. Hal tersebut menyebabkan latency saat proses
dekode besar. Model tersebut akan sulit diterapkan pada aplikasi nyata karena dapat
menggangu pengalaman pengguna dalam menggunakan aplikasi.
Di dalam penelitian ini, latency tersebut akan dikurangi menggunakan arsitektur
yang lebih sederhana dengan kemampuan prediksi yang setara dengan BLSTM
yaitu model akustik mGRUIPTC. mGRUIPTC adalah arsitektur yang diperoleh
dari hasil modifikasi arsitektur GRU dan dengan penambahan lapisan projection.
Lapisan ini berfungsi untuk menggabungkan masukan state saat ini dari keluaran
state sebelumnya untuk mengurangi jumlah parameter. Penggunaan future context
dapat diterapkan pada arsitektur tersebut dengan memanfaatkan lapisan projection
yaitu dengan menambahkan masukan dari beberapa state setelahnya dari keluaran
lapisan sebelumnya atau yang dikenal dengan temporal convolution. Dari hasil
pengujian pada bacaan Alquran yang dilakukan pada model tersebut, latency saat
proses dekode mengalami penurunan sebesar hingga 11 detik dibandingkan model
BLSTM dengan hasil prediksi yang setara. Dari percobaan yang dilakukan, model
mGRUIPTC memiliki waktu pelatihan 3 kali lebih lama dibandingkan BLSTM
pada data yang digunakan.
Data yang digunakan di dalam penelitian ini tidak hanya berisi bacaan Alquran dari
pembicara ahli seperti yang dilakukan di dalam penelitian sebelumnya. Pembicara
yang bukan ahli juga dimasukkan ke dalam data. Datanya diambil dari rekaman
setoran hafalan santri salah satu lembaga tahfidz Alquran. Selain itu, penambahan
data terkait kategori suara juga dilakukan. Di dalam penelitian sebelumnya,
kategori suara yang digunakan hanya kategori suara pria. Sedangkan, di dalam
penelitian ini, ada dua tambahan kategori suara yang dimasukkan ke dalam data
pengujian, yaitu kategori suara wanita dan anak laki-laki.ii
Model akustik mGRUIPTC juga diuji untuk mengevaluasi bacaan Alquran. Sistem
pengenalan suara dimodifikasi agar dapat mengenali suara pada tingkat fonem
karena 5 dari 6 kesalahan yang terjadi dalam bacaan Alquran adalah kesalahan
pengucapan yaitu kesalah huruf, baris, dengung, tebal tipis, dan panjang pendek.
Modifikasi dilakukan pada QScript yang dalam penelitian sebelumnya bertugas
untuk melakukan pemetaan tulisan arab ke latin sesuai dengan ilmu tajwid pada
tingkat kata. Modifikasi tersebut berupa penambahan aturan-aturan baru yang
belum ditangani oleh QScript sebelumnya. Dari hasil pengujian tersebut, sistem
bekerja lebih baik pada kategori suara pria. Selain itu, dari 5 kesalahan bacaan
Alquran, sistem bekerja lebih baik dalam mendeteksi kesalahan baris dan kesalahan
tebal tipis. Namun secara keseluruhan, sistem ini belum bisa digunakan untuk
mengevaluasi bacaan Alquran karena nilai PER model akustik untuk memprediksi
kesalahan besar pada bacaan Alquran yaitu kesalahan huruf, baris, dan panjang
pendek mencapai 26,82%.
Purwarupa sistem pengenalan suara secara daring juga dikembangkan didalam
penelitian ini. Purwarupa dibangun menggunakan model mGRUIPTC dengan
konfigurasi terbaik yang diperoleh dari proses pengujian. Sistem tersebut dapat
melakukan perekaman bacaan Alquran dan memberi balikan terhadap bacaan
Alquran secara langsung