Path: TopS2-ThesesInformatics Engineering2017

PENGENALAN DIALEK JAWA DAN SUNDA PADA UCAPAN BAHASA INDONESIA MENGGUNAKAN GMM DAN I-VECTOR

JAVA AND SUNDA DIALECT RECOGNITION FROM INDONESIAN SPEECH USING GMM AND I-VECTOR

Master Theses from JBPTITBPP / 2017-09-14 15:02:14
Oleh : RITA RAHMAWATI (NIM: 23514023), S2 - Informatics
Dibuat : 2017-09-14, dengan 1 file

Keyword : bahasa Indonesia, dialek, pembelajaran mesin, pengenalan dialek jawa dan sunda

Dialek merupakan variansi bahasa yang dapat mempengaruhi cara pengucapan seseorang. Dalam sistem pengenalan ucapan yang menerjemahkan suara ke dalam bentuk teks, dialek pembicara dapat mempengaruhi hasil pengenalan. Penelitian tentang identifikasi dialek telah dilakukan terlebih dahulu dalam dialek India (Hindi), Arab dan Bangladesh. Walaupun di Indonesia terdapat cukup banyak dialek, namun penelitian untuk pengenalan dialek pada bahasa Indonesia masih terbatas, oleh sebab itu dilakukan penelitian mengenai pengenalan dialek yang paling banyak penuturnya di Indonesia yaitu dialek Jawa dan Sunda.

Penelitian ini diawali dengan pengumpulan data yang digunakan untuk eksperimen pembelajaran mesin berbasiskan supervised learning. Korpus suara yang digunakan untuk membangun model adalah korpus suara yang di rekam dari 8 orang laki-laki dan 2 orang perempuan pada masing-masing dialek yang membacakan cerita dalam bahasa Indonesia dengan total durasi data latih selama 1,5 jam.

Pengenalan dialek Jawa dan Sunda pada ucapan bahasa Indonesia dibangun melalui eksperimen kombinasi fitur berupa MFCC dan pitch dan menggunakan teknik pemodelan GMM dan I-vector. Proses pembangunan model dialek dilakukan dengan perbandingan 80:20 untuk data latih dan data uji. Selain itu, model yang telah dibangun diuji dengan menggunakan skema 5-Fold terhadap 4 data uji yang bersifat closed test dan 12 data uji yang bersifat open-test. Nilai Classification Error yang didapat dengan menggunakan teknik pemodelan I-vector dan kombinasi fitur MFCC+pitch adalah sebesar 35% untuk closed test dan 13,34% untuk open test.

Deskripsi Alternatif :

Dialect is a variance of language that can affect the way a person pronounces. In a speech recognition system that translates voice into text form, the speaker dialect may affect the results of the recognition. Research on dialect identification has been done first in Indian (Hindi), Arabic and Bangladeshi dialects. Although in Indonesia there are quite a lot of dialects, but research for the recognition of dialect in Indonesian is still limited, therefore this research focus on recognition of Java and Sunda dialect that have the most speakers in Indonesia. This research begins with data collection used for machine learning experiments based on supervised learning. The sound corpus used to construct the model is recorded voice corpus of 8 men and 2 women in each dialect who read the story in Indonesian with a total duration of training data for 1.5 hours. The recognition of Java and Sunda dialects from Indonesian Speech was built through a combination of MFCC and pitch features and using GMM and I-vector modeling techniques. The process of building the dialect model is done with the ratio of 80:20 for the training and testing data. In addition, the constructed model has been tested using a 5-Fold scheme on 4 tesing data on closed test and 12 tesing data on open test. Classification Error value obtained by using I-vector modeling technique and MFCC + pitch feature combination is 35% for closed test and 13,34% for open test.

Copyrights : Copyright (c) 2001 by Perpustakaan Digital ITB. Verbatim copying and distribution of this entire article is permitted by author in any medium, provided this notice is preserved.

Beri Komentar ?#(0) | Bookmark

PropertiNilai Properti
ID PublisherJBPTITBPP
OrganisasiS2 - Informatics
Nama KontakUPT Perpustakaan ITB
AlamatJl. Ganesha 10
KotaBandung
DaerahJawa Barat
NegaraIndonesia
Telepon62-22-2509118, 2500089
Fax62-22-2500089
E-mail Administratordigilib@lib.itb.ac.id
E-mail CKOinfo@lib.itb.ac.id

Print ...

Kontributor...

  • Pembimbing : Dessi Puji Lestari, S.T., M.Sc., Ph.D., Editor: Alice Diniarti

Download...