Riset di bidang pengenalan ucapan untuk bahasa-bahasa yang memiliki sumber daya terbatas (under-resourced languages) menarik para peneliti beberapa tahun terakhir, salah satunya dalam pembangunan leksikon. Pada beberapa kasus, fonem-fonem (yang sesuai dengan kaidah linguistik) pada bahasa-bahasa terbatas tersebut tidak tersedia sehingga pembuatan leksikon yang bagus (kamus berisi daftar kata dan cara pengucapan) menjadi sulit. Pendekatan umum antara lain dengan meminjam fonem dari bahasa yang sudah memiliki korpus yang cukup lengkap, atau dengan Dirichlet process Gaussian mixture modeling (DPGMM) untuk menemukan unit-unit fonem baru. Pada penelitian ini, metode cross-lingual dan DPGMM digabungkan, sehingga pencarian fonem dengan DPGMM hanya melanjutkan dari penemuan fonem yang telah dilakukan sebelumnya oleh metode cross-lingual, dan performa leksikon diuji dengan pembangunan ASR dan penghitungan WER dari ASR tersebut. Hasil penelitian ini menunjukkan adanya perbaikan pada metode gabungan DPGMM-cross-lingual dibandingkan dengan metode DPGMM dan cross-lingual yang berdiri sendiri, dengan penurunan WER sebesar 1.11 – 10.94%.
Perpustakaan Digital ITB