digilib@itb.ac.id +62 812 2508 8800

ABSTRAK Sekar Larasati Muslimah
PUBLIC Alice Diniarti

Pembangunan bilingual dictionary merupakan salah satu riset bidang pemrosesan bahasa alami yang bertujuan untuk menghasilkan pasangan translasi kata dari dua bahasa yang berbeda. Pembangunan bilingual dictionary sangat bergantung pada ketersediaan data berupa parallel corpora atau comparable corpora. Pembangunan bilingual dictionary yang dibahas selanjutnya adalah pembangunan bilingual dictionary untuk bahasa Jawa dan Sunda. Bahasa Jawa dan Sunda termasuk dalam bahasa low-resource languages. Sulit ditemukan data berupa korpus parallel dan comparable untuk bahasa tersebut. Data yang tersedia berupa korpus monolingual. Karena keterbatasan data korpus paralel dan comparable untuk bahasa Jawa dan Sunda, pembangunan bilingual dictionary dilakukan dengan memanfaatkan representasi cross-lingual kata. Representasi cross-lingual kata memungkinkan penalaran arti kata pada konteks multilingual. Solusi pembangunan bilingual dictionary untuk bahasa Jawa dan Sunda ini dilakukan melalui dua pendekatan pembentukan representasi cross-lingual kata, yaitu pendekatan pseudo-bilingual corpora dan monolingual mapping. Pembentukan representasi kata dengan pendekatan pseudobilingual corpora dilakukan dengan menggabungkan korpus bahasa Jawa dan Sunda menggunakan metode length-ratio shuffle. Pembentukan representasi cross-lingual kata dengan pendekatan monolingual mapping dilakukan dengan memetakan ruang vektor kata bahasa Jawa ke bahasa Sunda. Monolingual mapping dapat dilakukan secara supervised dan unsupervised. Untuk setiap pendekatan pembentukan representasi cross-lingual kata, dilakukan eksperimen konfigurasi pembentukan representasi vektor kata dengan menggunakan model Word2Vec, pretrained FastText, dan feature extraction model pre-trained multilingual BERT. Untuk pendekatan monolingual mapping juga dilakukan eksperimen dengan model supervised dan unsupervised MUSE. Pengambilan pasangan translasi dilakukan menggunakan metode nearest-neighbors (NN) dan cross-domain similarity local scaling (CSLS). Konfigurasi model terbaik akan digunakan untuk pembangunan bilingual dictionary bahasa Jawa dan Sunda. Berdasarkan hasil eksperimen yang dilakukan, model supervised MUSE dengan pembentukan representasi kata menggunakan pre-trained model FastText menghasilkan kinerja terbaik. Model ini mampu mencapai nilai akurasi f1-score NN sebesar 0,423006 dan f1-score CSLS sebesar 0,446847 untuk k = 1