Perpustakaan Digital - Digilib ITB

TRANSFER LEARNING MODEL PENGENAL UCAPAN BAHASA INDONESIA DARI MODEL MULTIBAHASA MASSIVELY MULTILINGUAL SPEECH (MMS) DAN WHISPER

355 views

Penulis	:	Aulia Adila [13519100]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T, M.Eng., Ph.D.
Jenis Koleksi	:	Tugas Akhir
Penerbit	:	Teknik Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	model pengenal ucapan end-to-end, transfer learning, MMS, Whisper, variabilitas ucapan
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	18 Sep 2023

Aulia Adila [13519100].pdf
Terbatas Dessy Rondang Monaomi
» Gedung UPT Perpustakaan

Model pengenal ucapan yang ideal adalah model yang mampu mentranskripsi ucapan secara akurat untuk berbagai karakteristik sinyal suara, seperti gaya bicara (dikte dan spontan), konteks ucapan (formal dan informal), dan kondisi kebisingan latar belakang (bersih dan moderat). Pembangunan model dapat dilakukan dari awal menggunakan data latih berukuran besar. Akan tetapi, tidak tersedia data latih ucapan bahasa Indonesia dengan jumlah besar yang mewakili variabilitas karakteristik, sehingga digunakan pendekatan lain dalam membangun model secara efektif dengan memanfaatkan pengetahuan yang sudah dimiliki model pralatih, yaitu transfer learning. Pada tugas akhir ini, dilakukan penelitian pembangunan model pengenal ucapan bahasa Indonesia menggunakan metode transfer learning terhadap model state-of- the-art Massively Multilingual Speech (MMS) dan Whisper menggunakan 48.570 rekaman. Model hasil transfer learning (fine-tuned model) diuji terhadap data ucapan yang mewakili variabilitas karakteristik, kemudian dibandingkan dengan pengujian model tanpa transfer learning (baseline model). Hasil eksperimen menunjukkan peningkatan kemampuan prediksi model setelah dilakukan transfer learning yang ditandai dengan penurunan nilai WER (word error rate). Nilai WER terendah dicapai oleh fine-tuned model Whisper pada setiap kelompok data uji. Nilai WER terendah dicapai oleh data uji DFB (dikte-formal-bersih), sementara nilai WER tertinggi dicapai oleh data uji SIB (spontan-informal-bersih). Selain itu, disimpulkan bahwa karakteristik yang paling mempengaruhi kemampuan prediksi model adalah variasi gaya bicara dan konteks ucapan.

Perpustakaan Digital ITB

TRANSFER LEARNING MODEL PENGENAL UCAPAN BAHASA INDONESIA DARI MODEL MULTIBAHASA MASSIVELY MULTILINGUAL SPEECH (MMS) DAN WHISPER

Artikel Terkait