Perpustakaan Digital - Digilib ITB

MODEL AKUSTIK MGRUIP DENGAN TEMPORAL CONVOLUTION PADA SISTEM PENGENALAN SUARA UNTUK EVALUASI BACAAN ALQURAN

159 views

Save At List

Penulis	:	Isjhar Kautsar [23519009]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T., M.Eng., Ph.D.
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	sistem pengenalan suara, model akustik, future context, gated recurrent unit, bacaan Alquran.
Sumber	:
Staf Input/Edit	:	karya
File	:	13 file
Tanggal Input	:	15 Mar 2021

Cover

PUBLIC Open In Flipbook

Abstrak & Abstract

PUBLIC Open In Flipbook karya

Lembar Pengesahan
Terbatas karya
» ITB

Kata Pengantar
Terbatas karya
» ITB

Daftar Isi
Terbatas karya
» ITB

Daftar Singkatan
Terbatas karya
» ITB

BAB I
Terbatas karya
» ITB

BAB II
Terbatas karya
» ITB

BAB III
Terbatas karya
» ITB

BAB IV
Terbatas karya
» ITB

BAB V
Terbatas karya
» ITB

Daftar Pustaka
Terbatas karya
» ITB

Lampiran
Terbatas karya
» ITB

Dari penelitian sebelumnya, penggunaan future context pada model akustik untuk sistem pengenalan suara bacaan Alquran terlihat mampu meningkatkan kinerja sistem. Model akustik dengan future context tersebut berupa BLSTM. Penggunaan BLSTM pada sistem pengenalan suara bacaan Alquran mampu menurunkan nilai WER dengan rata-rata 4,63% dibandingkan model GMM. Akan tetapi, kemampuan model BLSTM dalam memprediksi harus ditukar dengan komputasi yang mahal karena kompleksitas arsitekturnya. Hal tersebut menyebabkan latency saat proses dekode besar. Model tersebut akan sulit diterapkan pada aplikasi nyata karena dapat menggangu pengalaman pengguna dalam menggunakan aplikasi. Di dalam penelitian ini, latency tersebut akan dikurangi menggunakan arsitektur yang lebih sederhana dengan kemampuan prediksi yang setara dengan BLSTM yaitu model akustik mGRUIPTC. mGRUIPTC adalah arsitektur yang diperoleh dari hasil modifikasi arsitektur GRU dan dengan penambahan lapisan projection. Lapisan ini berfungsi untuk menggabungkan masukan state saat ini dari keluaran state sebelumnya untuk mengurangi jumlah parameter. Penggunaan future context dapat diterapkan pada arsitektur tersebut dengan memanfaatkan lapisan projection yaitu dengan menambahkan masukan dari beberapa state setelahnya dari keluaran lapisan sebelumnya atau yang dikenal dengan temporal convolution. Dari hasil pengujian pada bacaan Alquran yang dilakukan pada model tersebut, latency saat proses dekode mengalami penurunan sebesar hingga 11 detik dibandingkan model BLSTM dengan hasil prediksi yang setara. Dari percobaan yang dilakukan, model mGRUIPTC memiliki waktu pelatihan 3 kali lebih lama dibandingkan BLSTM pada data yang digunakan. Data yang digunakan di dalam penelitian ini tidak hanya berisi bacaan Alquran dari pembicara ahli seperti yang dilakukan di dalam penelitian sebelumnya. Pembicara yang bukan ahli juga dimasukkan ke dalam data. Datanya diambil dari rekaman setoran hafalan santri salah satu lembaga tahfidz Alquran. Selain itu, penambahan data terkait kategori suara juga dilakukan. Di dalam penelitian sebelumnya, kategori suara yang digunakan hanya kategori suara pria. Sedangkan, di dalam penelitian ini, ada dua tambahan kategori suara yang dimasukkan ke dalam data pengujian, yaitu kategori suara wanita dan anak laki-laki.ii Model akustik mGRUIPTC juga diuji untuk mengevaluasi bacaan Alquran. Sistem pengenalan suara dimodifikasi agar dapat mengenali suara pada tingkat fonem karena 5 dari 6 kesalahan yang terjadi dalam bacaan Alquran adalah kesalahan pengucapan yaitu kesalah huruf, baris, dengung, tebal tipis, dan panjang pendek. Modifikasi dilakukan pada QScript yang dalam penelitian sebelumnya bertugas untuk melakukan pemetaan tulisan arab ke latin sesuai dengan ilmu tajwid pada tingkat kata. Modifikasi tersebut berupa penambahan aturan-aturan baru yang belum ditangani oleh QScript sebelumnya. Dari hasil pengujian tersebut, sistem bekerja lebih baik pada kategori suara pria. Selain itu, dari 5 kesalahan bacaan Alquran, sistem bekerja lebih baik dalam mendeteksi kesalahan baris dan kesalahan tebal tipis. Namun secara keseluruhan, sistem ini belum bisa digunakan untuk mengevaluasi bacaan Alquran karena nilai PER model akustik untuk memprediksi kesalahan besar pada bacaan Alquran yaitu kesalahan huruf, baris, dan panjang pendek mencapai 26,82%. Purwarupa sistem pengenalan suara secara daring juga dikembangkan didalam penelitian ini. Purwarupa dibangun menggunakan model mGRUIPTC dengan konfigurasi terbaik yang diperoleh dari proses pengujian. Sistem tersebut dapat melakukan perekaman bacaan Alquran dan memberi balikan terhadap bacaan Alquran secara langsung

Perpustakaan Digital ITB

MODEL AKUSTIK MGRUIP DENGAN TEMPORAL CONVOLUTION PADA SISTEM PENGENALAN SUARA UNTUK EVALUASI BACAAN ALQURAN

Artikel Terkait

Daftar Simpan Judul

MODEL AKUSTIK MGRUIP DENGAN TEMPORAL CONVOLUTION PADA SISTEM PENGENALAN SUARA UNTUK EVALUASI BACAAN ALQURAN

Artikel Terkait