Perpustakaan Digital - Digilib ITB

SISTEM PENGENAL SUARA UNTUK BAHASA INDONESIA MENGGUNAKAN TRANSFER LEARNING BERBASIS WAV2VEC2 PADA BEBERAPA DOMAIN SPESIFIK

508 views

Save At List

Penulis	:	Rossevine Artha Nathasya [23520016]
Kontributor / Dosen Pembimbing	:	Dessi Puji Lestari, S.T, M.Eng., Ph.D.
Jenis Koleksi	:	Tesis
Tahun Terbit	:
Penerbit	:	Informatika
Fakultas	:	Sekolah Teknik Elektro dan Informatika
Subjek	:
Kata Kunci	:	Speech Recognition, Wav2Vec2, Model Bahasa, CTC ,CER, WER
Sumber	:
Staf Input/Edit	:	Dessy Rondang Monaomi
File	:	1 file
Tanggal Input	:	19 Sep 2023

Rossevine Artha Nathasya [23520016].pdf

PUBLIC Open In Flipbook Dessy Rondang Monaomi

Speech recognition saat ini merupakan salah satu bidang kecerdasan buatan yang banyak diminati. Salah satu teknik untuk pembuatan speech recognition yaitu Connectionist Temporal Classification (CTC). Framework dengan teknik CTC dengan hasil evaluasi paling baik saat ini yaitu Wav2Vec2. Terdapat beberapa pengembangan model Wav2Vec2 dalam bahasa Indonesia, akan tetapi pada model yang ada bila diuji dengan data ber domain spesifik menghasilkan nilai evaluasi yang kurang baik. Oleh karena itu diperlukannya pembuatan speech recognition dengan Wav2Vec2 untuk domain data yang spesifik. Domain spesifik yang diuji terdiri dari domain perkuliahan, domain kedokteran gigi dan domain berita. Untuk model yang digunakan pada eksperimen yaitu model hasil pengembangan Facebook "wav2vec2-large-xlsr-53". Hal tersebut disebabkan karena model menghasilkan nilai evaluasi yang paling baik bila diuji dalam data berbahasa Indonesia. Pada penelitian ini terdapat beberapa skenario diantaranya model Wav2Vec2 dengan model bahasa dan tanpa model bahasa serta model Wav2Vec2 menggunakan transfer learning dengan model bahasa dan tanpa model bahasa. Hasil yang didapat yaitu model Wav2Vec2 menggunakan transfer learning dengan model bahasa mendapatkan hasil evaluasi yang paling kecil dibandingkan skenario lainnya di domain spesifik dan multi domain. Pada domain berita nilai WER yang didapatkan 6.9%, Nilai CER yang didapatkan 1.1%. Pada domain Kedokteran gigi nilai WER yang didapatkan 11.8% dan CER 4.1%. Pada domain perkuliahan nilai WER yang didapatkan 46.5% dan CER 16.2%. Begitupun model dengan multi domain menghasilkan nilai WER 30.4% dan nilai CER 11.5%.

Perpustakaan Digital ITB

SISTEM PENGENAL SUARA UNTUK BAHASA INDONESIA MENGGUNAKAN TRANSFER LEARNING BERBASIS WAV2VEC2 PADA BEBERAPA DOMAIN SPESIFIK

Artikel Terkait

Daftar Simpan Judul

SISTEM PENGENAL SUARA UNTUK BAHASA INDONESIA MENGGUNAKAN TRANSFER LEARNING BERBASIS WAV2VEC2 PADA BEBERAPA DOMAIN SPESIFIK

Artikel Terkait